| Робототехника | ||
| Техника видео, кино и телевидения | ||
|
Более полный поиск по теме Вашего запроса (наберите его в окне поиска) |
||
Функции распознавания и синтеза речи
всё же начали
культивироваться и в офисах российских фирм – судя по оборудованию,
представленному на выставке «Канцэкспо-осень-2004». Сбываются
прогнозы о том, что современные аудио- и видеотехнологии начнут служить малому
бизнесу не через абстрактные «компьютерные» выставки, а через специализированные
индустриальные. И технологии, представляемые на таких выставках, не имеют яркого
показательного характера, они упрощенные – до той степени, чтобы ими можно было
пользоваться без особых усилий.
Например, благодаря такому высокотехнологичному участнику выставки, как
швейцарская фирма Dictaphone Europe AG, специализирующаяся на разнообразных
системах обработки речи, посетители смогли познакомиться с ПО WalkaboutWrite,
делающим предельно простым для офисного работника идентификацию голосовых
файлов, определение приоритетов, установленных автором и организацию
надиктовывания текстов. Система предлагает полное управление переносом голосовых
файлов на другие носители, а также:
- обзор надиктованного материала в целях его экспресс-анализа;
- интегрированную обработку голоса;
- приём надиктованной информации по электронной почте и через
локальные/глобальные сети;
- готовность распознавания голоса;
- вставку отрывков в электронном виде в надиктованный документ.
На рис. 1 показан вариант использования системы в мобильных условиях – например,
в радиожурналистике, когда требуется передать в редакцию (или иной головной
офис) речевой материал без шумовых помех или радионаводок на телефонной линии,
без искажений текста при полной его верификации. Поможет журналисту в этом
устройство Walkabout m5215, снабженное программным обеспечением для управления
голосовыми файлами и их несложной отправки по компьютерным сетям, функциями
вставки/перезаписи, а также сменными картами памяти MMC/SD (причем 32 МБайт
внутренней памяти достаточно для более чем 5 час надиктовывания).
Функция синтеза речи пришла в офисы благодаря электронным переводчикам –
подобным продемонстрированным на этой выставке американской компанией Tiwell
Assistant. В качестве примера приведём многоязыковой голосовой переводчик
АТ-2090/2091 (рис. 2), рассчитанный на перевод и воспроизведение с 10 языков, в
том числе, с русского. Он содержит по 20 тыс. слов и по 2300 фраз на каждый
язык. Отличие моделей – в наборе языков, но русский входит в каждый из наборов и
это говорит о повысившемся внимании к нашему языку со стороны мировых
компьютерных фирм. А. Барсуков,
журнал "Радиолюбитель", № 7-8, 2004 г. (через эту ссылку можно
бесплатно скачать справочник)
В 12-й день 12-го месяца 2006 года компания АВВYY официально анонсировала
выход 12-й версии словаря АВВYY Lingvo. Лидер российского рынка электронных
словарей пополнил словарную базу более чем на 1,3 млн статей, а новые
интерфейс и функциональность позволяют сократить время на понимание
текстов на иностранных языках. Новая версия АВВYY Lingvo разрабатывалась, в первую очередь, чтобы
позволить пользователю максимально сократить время, необходимое для чтения и
составления документов на иностранных языках, предоставить самую широкую
словарную базу современной лексики и сделать продукт более удобным в использовании. Словарные статьи АВВYY Lingvo содержат подробные переводы слов.
Слова сопровождаются живыми примерами использования из классических и
современных источников: книг, газет и других периодических изданий.
Помимо примеров, в словарных статьях есть синонимы, антонимы,
комментарии и другая справочная информация, помогающая глубже понять
смысл оригинального текста, точнее подобрать слово, сделать свой язык
выразительнее и богаче.
АВВYY Lingvo 12 дополнен 19 новыми словарями.
Не только собственные разработки лексикографов АВВУУ, но и
электронные аналоги бумажных словарей известных авторов и издательств. 80% этих
словарей издано в 2003-2006 гг., а некоторые увидят свет только в 2007 году. В англо-русском общей лексики АВВYY Lingvo Universal переработана и обновлена половина словарных статей (около 50 тыс.).
Словарь содержит терминологию 2007 года и может считаться самым
современным словарем общей лексики. Для сравнения, последние обновления изданий
аналогичных известных бумажных словарей Апресяна и Мюллера датируются 1994
годом. Из нововведений АВВYY Lingvo 12 - функция мгновенного
перевода текста на экране по наведению мыши, позволяет
тратить в несколько раз меньше времени на чтение иностранных текстов по
сравнению с предыдущей версией и на порядок меньше времени по сравнению
с использованием бумажных словарей. Еще полезная новинка - поиск «по маске» - дает возможность находить
слова, в правописании которых пользователь не уверен. Кроме прямого
назначения, эта возможность полезна при разгадывании кроссвордов.Новая версия АВВYY Lingvo может похвастаться наличием самого полного на рынке
толкового словаря английского языка - 8-го издания знаменитого Соllins Еnglish
Dictionary, выпущенного НаrреrСоllins Рublishers в 2006 году. Эта самая свежая
версия издания словаря выходит впервые в электронном виде в России именно в
составе АВВYY Lingvo 12. Среди самых необычных словарей, появившихся в АВВYY
Lingvo 12 – немецкий словарь по технологиям производства пива. АВВYY Lingvo 12 сможет работать практически везде: на ПК, ноутбуках,
карманных компьютерах, смартфонах. А популярная среди изучающих язык программа-«обучалка»
АВВYY Lingvo Тutor в новой версии продукта сможет работать еще и на платформе
Росket РС.
«Попробовав новую версию АВВYY Lingvo, я был просто в восторге от того,
насколько быстрее теперь можно читать иностранные тексты, используя функцию
мгновенного перевода слов. Я знаю английский неплохо, но все же время от времени
приходится заглядывать в словарь, - говорит Григорий Липич, генеральный директор
АВВYY Россия. - Теперь с Lingvo 12 я трачу раза в два меньше времени на чтение
новостных сайтов на английском. Думаю, что эта и другие возможности новой версии
сделают наш продукт более приятным и полезным для миллионов пользователей в
России».
17.06.2008, круглый стол на тему:
«Положение русского языка в странах СНГ». Основные темы обсуждения:
- правовой статус русского языка в странах СНГ;
- анализ существующей практики использования русского языка в государствах
Содружества;
- возможные меры по поддержке и развитию русского языка в странах СНГ.
К участию в заседании круглого стола приглашены:
- первый заместитель председателя Комитета Госдумы по наукоемким технологиям
Андрей КОКОШИН;
- заместитель председателя Комитета по международным делам Госудумы Наталия
НАРОЧНИЦКАЯ;
- член Комитета ГД по экономической политике и предпринимательству Владимир
МЕДИНСКИЙ;
- политик Алексей МИТРОФАНОВ;
- председатель Комитета Госдумы по транспорту, председатель Попечительского
совета Фонда подготовки кадрового резерва «Государственный клуб» Сергей ШИШКАРЕВ;
- генеральный директор исследовательской группы ЦИРКОН Игорь ЗАДОРИН;
- член Комиссии Общественной палаты РФ по коммуникациям, информационной политике
и свободе слова в СМИ, генеральный директор радиостанции «Русская служба
новостей» Александр ШКОЛЬНИК;
- член Общественной палаты РФ, руководитель Центра стратегических исследований
религии и политики современного мира, главный редактор журнала «Смысл» Максим
ШЕВЧЕНКО.
Круглый стол проводится в рамках сессии Форума молодежных элит СНГ -
общественно-образовательного проекта, реализуемого Центром политической
конъюнктуры России в рамках гранта Президента РФ. Задачами Форума, в работе
которого принимают участие представители 10 стран СНГ, являются развитие
интеллектуального взаимодействия и налаживание горизонтальных связей молодежи
стран СНГ, задействование потенциала гражданской дипломатии в рамках отношений
России с сопредельными государствами.
24.11.08. Компания ABBYY представляет ABBYY Lingvo X3 ME –
пропуск в мир сленга, интернет-сокращений и местных наречий. Встречайте
специальный кросс-культурный лингвистический проект «ЙА СЛОВАРЧЕГ». Это
уникальный электронный сборник словарей различных субкультур, выпущенный
ограниченным тиражом.
Электронный словарь ABBYY Lingvo X3 ME (читается «Аби Лингво эксТРИм») – подарок
всем поклонникам современного, модного и оригинального. Продукт объединяет в
себе словари сленга бизнесменов и компьютерщиков, самых актуальных слов
«Большого города» и смайликов, специфических терминов сетевого сообщества (т.н.
«олбанского» языка) и лексики российских регионов, женско-мужской словарь, а
также авторские словари одесского языка и американского сленга.
ABBYY Lingvo X3 ME заставит каждого улыбнуться и ярко продемонстрирует
неортодоксальный взгляд на мир, характерный для отдельных закрытых сообществ в
современном обществе.
Словарь научит понимать язык юных блоггеров или зрелых одесситов, романтичных
гламурных барышень и нонконформистских афро-американцев. ABBYY Lingvo X3 ME
легко превратит «ламера1» в продвинутого «юзера2», расскажет об «обмороссах3»,
пояснит, когда и кому грозит ссылка в «Бабруйск4» и подскажет достойный ответ на
KISS5 или LMAO6. Так как некоторые словарные статьи содержат непечатную лексику,
компания ABBYY спешит сообщить, что продукт предназначен только для
совершеннолетних пользователей с чувством юмора и устойчивой психикой.
ABBYY Lingvo X3 ME разработан лингвистами ABBYY и независимыми социолингвистами.
Авторам потребовалось не просто провести серьезные лингвистические исследования,
но и проявить недюжинную деликатность и тонкое чувство юмора для смягчения
наиболее жестких толкований. Отличие ABBYY Lingvo X3 ME от других словарей
состоит еще и в том, что его интересно читать, статью за статьёй, от корки до
корки. И можно часами обсуждать с друзьями различные слова и сочетания, не
переставая удивляться тому, как многогранно и по-разному выражают себя
представители разных неформальных сообществ.
«Многообразие красок реальной жизни отражается в живом языке народа, в тех
словах и оборотах, которые используют люди в быту, на работе, на улице, в блогах.
Поэтому словарь ABBYY Lingvo X3 ME не включает академическую, зацементированную
лексику. Мы стремились уловить и растолковать ту изменчивую часть языка, которая
живет не в прошлом, а в настоящем. Изучая этот живой сегодняшний язык, люди
смогут лучше понять друг друга. И в этом им поможет ABBYY Lingvo», —
рассказывает Александр Рылов, директор департамента лингвистических продуктов
компании ABBYY.
Специально к выходу ABBYY Lingvo X3 ME создан сайт, который рассказывает о
каждой из субкультур, языки которых нашли отражение в словаре. Посетители сайта
смогут не только узнать интересные факты и подробности о новинке, но и
предложить свои словарные статьи для дополнения онлайн-проектов в составе ABBYY
Lingvo X3 ME. Также можно будет воспользоваться интерактивными сервисами,
например, развеселить друга, отправив ему оригинальную открытку с надписями
«жжош7!», «кросавчег8» или «ЗАЙ ГИЗУНТ!9» и т.д.
Яркие представители различных субкультур могут принять участие в конкурсе «Доска
почета». Для этого необходимо прислать свою фотографию и короткое приветствие,
эссе, анекдот или произведение в любой иной литературной форме на языке своей
«тусовки». Лица и творения наиболее достойных конкурсантов будут размещены на
«Доске почета», а их авторы получат полезные цифровые «девайсы10».
[1] Ламер: 1) "чайник", исполненный самомнения; 2) слабый игрок; новичок
(словарь компьютерного сленга)
[2] Юзер (от user): пользователь (словарь компьютерного сленга)
[3] Обморосс: Обеспеченный молодой россиянин. Термин придуман Максимом Осиповым,
земским врачом из Тарусы (словарь «Большой Город»)
[4] Бабруйск: место, куда "посылают" авторов с низким уровнем интеллекта;
происходит от названия белорусского города Бобруйска (словарь сетевой лексики)
[5] KISS: поцелуй. Ну конечно, целоваться можно по-разному и с разными. (словарь
американского сленга)
[6] LMAO: Laughing My Ass Off (словарь сокращений)
[7] Жжош как агнимьот: хорошо излагаешь (словарь сетевой лексики)
[8] Кросавчег: красавчик, красавец, орел; характеристика персонажа с оттенком
иронии (словарь сетевой лексики)
[9] ЗАЙ ГИЗУНТ! Память об ушедшем в прошлое одесском языке так называемого
межнационального общения. Традиционный одесский тост, которому евреи успешно
обучили остальных представителей одесского народа. (словарь одесского языка)
[10] Девайс: устройство, приспособление (словарь компьютерного сленга)
22 июля 2009 года, компании Softline и Paragon Software
Group (SHDD), вебинар «Словари МультиЛекс - профессиональный инструмент для
перевода и изучения иностранных языков». МультиЛекс 7 – это профессиональное
словарное решение, предназначенное для получения быстрого и максимально
достоверного перевода, а также для изучения иностранных языков. Направления
перевода:
- Английский-Русский, Русский-Английский;
- Немецкий-Русский, Русский-Немецкий;
- Французский-Русский, Русский-Французский;
- Испанский-Русский, Русский-Испанский;
- Итальянский-Русский, Русский-Итальянский;
- Португальский-Русский, Русский-Португальский.
Основные особенности словарей МультиЛекс 7:
Использование большого количества общих, тематических и толковых словарей,
заслуживших доверие большинства профессиональных лингвистов и переводчиков.
Перевод осуществляется с помощью словарных баз от ведущих специалистов в области
лингвистики, среди них словари: Oxford University Press, Мюллера, Ахмановой,
Смирницкого, Бенюха, Рымашевской, Раевской, Туговера, Ковалева и многих других.
Словарные базы полностью соответствуют печатным источникам, что позволяет
получать полный, исчерпывающий, профессиональный перевод слова с примерами
употребления.
Высокая скорость перевода. Благодаря продуманному механизму поиска пользователь
получает достоверный перевод в 100 раз быстрее, чем в печатном аналоге: перевод
одним кликом из сторонних приложений; быстрый перевод слова в любой форме;
помощь в поиске слов при сомнении в правописании; автоматическое переключение на
необходимый язык при вводе; перевод заданных пользователем слов и словосочетаний
в режиме построчного перевода.
Эффективная и удобная работа с функциональной оболочкой словарей МультиЛекс,
позволяющей пополнять свой словарный запас, проверять свои знания и
совершенствовать произношение: озвучивание слов носителями языка; добавление
статей в закладки; собственный словарь (возможность создания новых полноценных
статей с описанием и транскрипцией, а также замечаний к уже существующим);
моментальная грамматическая справка по любому слову; тест по карточкам; а также
автоматическое обновление словарей; каталог словарей (возможность покупки и
подключение других языков).
Вебинар проводит Ерёменко Роман, менеджер по развитию бизнеса компании Paragon
Software Group.
Умный словарь покупателям умных телефонов: покупателей
смартфонов Nokia Nseries: Nokia N79, Nokia N85, Nokia N96, а также Nokia 6210
Navigator ждет электронный словарь ABBYY Lingvo x3 Мобильная версия.
ABBYY Lingvo x3 Мобильная версия – это современный мобильный словарь для 8
популярных языков. В его состав входит 38 словарей различных направлений:
словари общей лексики, разговорники, учебные и лингвострановедческие словари.
Мобильная версия особенно полезна во время путешествий, на работе, отдыхе или
учебе, поскольку позволяет в любой момент получить точный перевод слова. ABBYY
Lingvo x3 Мобильная версия востребован не только пользователями – он также
признан победителем конкурса «Продукт года» в номинации «Лингвистическое ПО» по
версии Softool 2008.
18.02.10. ABBYY Lingvo X3 ME (Medved Edition) –
оригинальный словарь, который откроет для вас и ваших близких мир сленга,
смайлов, компьютерных терминов и региональной лексики. С его помощью можно
постичь все грани сетевого языка, понять, о чем шутят одесситы или американские
гангстеры.
Женско-мужской словарь «Он и Она», входящий в состав ABBYY Lingvo X3 ME, сделает
точку зрения противоположного пола понятнее, и слово «заморочки» не будет
трактоваться мужчинами как «нелинейная комбинация различных чувств», а девушки
поймут, что для мужчины «праздник» - это не только Новый год или день рождения,
но и когда «друг пришел».
ABBYY Lingvo X3 ME – это качественный «креатифф» от компании ABBYY,
предназначенный для современных и жизнерадостных людей.
10.09.2010. ABBYY Lingvo for Mac. Теперь владельцы Mac
могут установить на свои компьютеры современный словарь.
- Помощь в изучении языков. Воспользуйтесь встроенными грамматическими
справочниками, озвученными разговорниками, лингвострановедческими, учебными
словарями, именитыми словарями английского языка Oxford и Collins, толковыми
словарями русского языка. Также будут полезны озвученные профессиональными
дикторами 60 000 слов, транскрипции, формы слова и примеры их употребления,
толкования, идиомы и устойчивые выражения.
- Точный перевод слов. ABBYY Lingvo for Mac – это комплект из 125 словарей для 7
языков: английского, немецкого, французского, испанского, итальянского,
португальского и русского. В ABBYY Lingvo for Mac входят наиболее актуальные и
лучшие по качеству словари общей лексики, где подробно описаны более 100 000
слов для каждой пары языков, есть примеры употреблений, синонимы и антонимы.
Специалистам, которые используют специализированную лексику, в поиске переводов
помогут многочисленные тематические словари.
- Эффективный инструмент. Всплывающий перевод слов послужит средством
мгновенного восприятия слов и фраз при чтении интернет-страниц, иностранных СМИ,
электронной документации и литературы.
12.04.11. Популярный молодежный онлайн-чемпионат «Кубок
Lingvo» снова собирает начинающих переводчиков, чтобы из тысяч претендентов
выявить сильнейшего участника и в этом году. Для тех, кто учит иностранный язык,
любит переводить и обожает соревнования, это мероприятие – отличный шанс заявить
о себе и мастерски сразиться с конкурсантами из России и других стран за главный
приз – двухнедельную поездку в страну изучаемого языка.
В этом году расширили список языков для перевода: к английскому, французскому и
немецкому добавился испанский.
Важно, что в соревнованиях могут принимать участие школьники старше 16 лет,
студенты всех форм обучения, а также аспиранты, получившие диплом не ранее 2009
года, из России и других стран.
Победителей ждут ценные призы и подарки. Обладатель «Кубка Lingvo 2011» получает
уникальную возможность провести две незабываемые недели в Великобритании,
Германии, Франции или Испании.
Соревнования пройдут в 2 тура – 20-21 апреля и 19 мая 2011 года. В первом туре
определятся финалисты Кубка, второй этап выявит победителя, а также еще 29
человек – обладателей призовых мест и ценных подарков.
Торжественное вручение «Кубка Lingvo 2011» и призов состоится в июне 2011 года.
27 июля 2011. 31 мая состоялся официальный анонс новой версии
программы ABBYY Lingvo x5.
Что нового в ABBYY Lingvo x5:
▪ Новые языки
Теперь в Lingvo x5 доступно 20 языков: английский, русский, немецкий,
французский, испанский, итальянский, португальский, китайский, латинский,
турецкий, украинский, греческий, финский, казахский, татарский, польский,
венгерский, датский, нидерландский и норвежский.
▪ Новые словари
Новая версия продукта Lingvo x5 включает словари собственной разработки ABBYY®,
ABBYY® Press и таких авторитетных издательств, как «Русский язык – Медиа»®,
«Руссо»®, HarperCollins® Publishers, полностью переработанные и обновленные
издания словарей New Oxford® American Dictionary, Oxford® Dictionary of English
2010 года, «Большой толковый словарь русского языка» С.А. Кузнецова, 2010 года с
энциклопедическими справками, ABBYY® Universal 2011 года и другие. Около 1 000
иллюстраций содержатся в New Oxford® American Dictionary.
▪ Новые упражнения в приложении для запоминания слов
В ABBYY Lingvo x5 обновлено приложение ABBYY Lingvo Tutor. В программу входит
комплекс упражнений для расширения словарного запаса и повышения грамотности при
изучении языков на распространенные темы: «Знакомство», «Мозаика», «Варианты»,
«Написание» и «Самопроверка».
▪ Новый портал Lingvo.Pro
Новая версия ABBYY Lingvo выходит за рамки установки программы на отдельный
компьютер или в офисную сеть. Чтобы обеспечить пользователям постоянный доступ к
словарям, актуальным для приобретенной ими версии, создан лингвистический
онлайн-портал Lingvo.Pro. Доступ к порталу будет бесплатным в течение года с
момента активации лицензии на ABBYY Lingvo x5.
При наличии интернет-подключения ABBYY Lingvo x5 впервые обеспечивает доступ к
обширной онлайн-базе памяти переводов (ТМ – translation memory) для английского,
немецкого и французского языков. Программа показывает примеры современного
употребления слов и словосочетаний в предложениях из художественной и
технической литературы, законодательных и юридических документов, с
интернет-сайтов.
▪ Обновленный перевод по наведению
Появившаяся в одной из предыдущих версий словаря возможность быстрого перевода
текста по наведению на него курсора, в ABBYY Lingvo x5 улучшена благодаря
интеграции технологии распознавания текста. Теперь пользователи смогут
переводить слова в PDF-файлах, Flash-роликах и даже в субтитрах к фильмам.
▪ Видеоуроки
Видеоуроки English Club® TV предназначены для людей, желающих свободно говорить
на английском, но испытывающих дефицит времени для обучения. В ABBYY Lingvo x5
входит коллекция развлекательных и познавательных сюжетов, основывающаяся на
коммуникативном методе обучения. Видеоуроки позволяют эффективно погрузиться в
языковую среду.
Перевод PROMT победил на международном конкурсе
30-31 июля 2011 г. в Эдинбурге состоялся ежегодный семинар по статистическому
машинному переводу (6th Workshop on Statistical Machine Translation).
В рамках семинара прошел традиционный конкурс систем машинного перевода. В этом
году участие в нем приняли около полусотни систем, включая и компании с мировым
именем, и экспериментальные разработки. Тестировались переводы на английский и с
английского для следующих языков: французского, испанского, немецкого и
чешского. В числе прочих в эксперименте по переводу участвовали системы PROMT.
Участники должны были перевести тестовые тексты, используя возможные в рамках их
систем настройки. Затем полученные переводы оценивались людьми и сравнивались
полученные оценки.
Системы PROMT уверенно смотрелись на фоне мировых лидеров: перевод с английского
на немецкий, выполненный PROMT, занял первое место в своей группе. Также на
лидирующих позициях оказались переводы PROMT с английского на испанский и с
немецкого на английский. Остальные переводы PROMT также показали неплохие
результаты.
В ходе конкурса оценивались переводы, выполненные системами PROMT в разных
вариантах, включая онлайн-сервис и новую разработку – гибридную систему, в
которой объединяются технологии статистического перевода и перевод, основанный
на правилах.
31.08.2011. PROMT переводит в новых версиях браузеров
Переводить тексты с помощью PROMT можно не только из самой программы, но и из
других приложений, в том числе – из браузеров. Так как версии программ, в
которые встраивается перевод, регулярно обновляются, PROMT готовит
соответствующие обновления и для своих программных продуктов.
Так, недавно, в связи с выходом новой версии Firefox, появилось обновление,
предназначенное для встраивания переводчика PROMT версий 9.0 и 9.5 в браузер
Firefox 5.0. Инструкция по загрузке обновления опубликована на сайте PROMT.
Кроме того, PROMT 9.0 и 9.5 обеспечивает совместимость с последней версией
Internet Explorer 9. Как использовать переводчик в новой версии браузере, также
рассказывает соответствующая инструкция.
Электронный
сканирующий переводчик Quicktionary TS - перевод по мановению руки! Электронный
сканирующий переводчик Quicktionary TS позволяет получить мгновенный перевод
печатного текста в любом месте в любое время!
28 сентября 2011 г. – Компания «Электронные словари», официальный дистрибьютор
WIZCOM Technologies Ltd. в России, представляет обновленную версию портативного
электронного сканирующего переводчика Wizcom Quicktionary TS, способного
распознавать как отдельные слова, так и целые строки, включая идиомы и фразы, и
делать их моментальный перевод.
При переводе текста более 50% времени уходит на поиск нужного слова в словаре.
Теперь не надо листать страницы – достаточно провести ручным сканером по
искомому слову или фразе и посмотреть перевод на экране. Это портативное и
легкое устройство способно заменить собой целую библиотеку специализированных
словарей!
Портативный сканирующий переводчик Quicktionary TS – это не только
сканер-словарь, но и целый набор новых уникальных технологий по работе с
текстами на иностранных языках.
Quicktionary TS - идеальный инструмент для любого, кто нуждается в многоязыковой
поддержке, в том числе студентов, путешественников, научных работников и
бизнесменов.
Использование сенсорного экрана и виртуальной клавиатуры обеспечивает
максимальную эффективность при невозможности отсканировать текст – теперь вам
«по зубам» любая вывеска, титры, просто слово, услышанное или пришедшее на ум.
Для удобства набора слов с помощью виртуальной клавиатуры в Quicktionary TS
предусмотрен компактный и удобный стилус, надежно крепящийся в слоте внутри
корпуса устройства.
Сканирующий переводчик Quicktionary TS различает широкий диапазон размеров и
вариантов написания шрифтов, включая курсивы и подчеркивания. Не станет
сложностью и слово, разделенное дефисом или знаком переноса - в этом случае
переводчик догадается «склеить» разрозненные части слова в одно и перевести
результат.
При работе возможны два режима отображения переведенного текста на экране –
краткое определение или полное определение и перевод. Устройство не
ограничивается одним наиболее простым и часто встречающимся определением и
старается учесть все возможные варианты значения слова и его грамматических
форм.
Изначально электронный сканирующий переводчик Quicktionary TS включает в себя 3
словаря:
• Англо-русский словарь на 300 000 слов и 20 000 устойчивых выражений (перевод
содержит английский, американский и австралийский варианты значения слова);
• Русско-английский словарь ABBYY Lingvo на 110 000 слов и словосочетаний от
всемирно известного российского разработчика программного обеспечения и
поставщика услуг в области распознавания и ввода документов, лингвистики и
перевода - компании ABBYY;
• Толковый словарь American Heritage Concise на 300 000 слов.
Переводчик запоминает последние 80 переведенных пользователем слов, которые
потом использует во встроенных играх, предназначенных для закрепления материала.
Одна из игр, Wordman, чем-то напоминает наше «Поле чудес» - пользователю
предстоит угадать скрытое слово, нажимая буквы на виртуальной клавиатуре. Другая
игра, Scrambled Word, еще и развивает логическое мышление – в ней нужно
расшифровать слово, имея в начале игры только набор входящих в него букв.
Электронный сканирующий переводчик Quicktionary TS позволяет прослушать
голосовое произношение как отдельных переведенных слов, так и целых строк текста
на выбранных языках. Звук можно воспроизвести как через встроенный динамик, так
и через наушники, подключенные к стандартному 3,5-миллиметровому разъему
mini-jack.
Все управление Quicktionary TS организовано посредством пятипозиционной
навигационной кнопки и сенсорного экрана, на котором помещается до пяти строк
текста и меню в виде пиктограмм. Ориентация текста и назначение кнопок
переключаются с помощью всего одного пункта меню и организовано как для правшей,
так и для тех, кто пользуется преимущественно левой рукой.
В комплектацию, помимо самого электронного сканирующего переводчика, входит
защитный футляр, наушники, пластиковый тренажер, 2 батарейки ААА и подробнейшая
инструкция по использованию на русском языке.
Портативный сканирующий переводчик Quicktionary TS уже доступен в
магазинах-партнерах компании «Электронные словари». Рекомендованная розничная
стоимость устройства составляет 6 590 рублей.
Характеристики электронного сканирующего переводчика Quicktionary TS:
Тип устройства: Электронный сканирующий переводчик
Экран: 2,5” (208 х 65 пикселей / 5 строк по 22 символа в строке), монохромный
FSTN, сенсорный
Управление: Комбинированное (сенсорный экран + кнопки)
Процессор: ARM7 TDMI, 80 МГц
Встроенная память: 4 / 8 / 16 Мб
Оперативная память: 64 Кб (для системных нужд)
Динамик: Моно (1х 1 Вт)
Способ ввода: Сканирование печатного текста, ручной ввод при помощи виртуальной
клавиатуры на сенсорном экране
Разрешение сканера: 400 dpi
Размер сканируемых букв: 6-22 pt
Начертание сканируемых букв: Обычные шрифты, курсив, жирные и подчеркнутые буквы
Дополнительные возможности сканирования: Сканирование негативного текста,
изменение направления сканирования для левшей, сканирование полной строки,
редактирование отсканированного слова, память на 80 ранее отсканированных слов
Поддерживаемые языки: Английский, русский
Словарная база: Более 700 000 слов
Словари: - Англо-русский словарь на 300 000 слов и 20 000 устойчивых выражений
- Русско-английский словарь ABBYY Lingvo на 110 000 слов и словосочетаний
- Толковый словарь American Heritage Concise на 300 000 слов
Дополнительно: Функция произношения, регулировка контрастности экрана
Питание: 2 батарейки ААА
Разъемы: - MiniUSB (USB 1.1)
- Разъем для наушников (mini-jack 3,5 мм)
Материал корпуса: Пластик
Цвет: Черный с красной вставкой
Размеры: 177,5 х 41,5 х 33 мм
Вес: 77 г (без элементов питания), 100 г (с элементами питания)
Компания «Электронные Словари» работает на российском рынке с 1993 г. Сферой
деятельности компании является разработка, совместное производство и продажа на
российском рынке портативных устройств для образования: электронных словарей и
переводчиков, электронных книг и планшетов. Товары компании распространяются
через дилерскую сеть во многих крупных городах России. В Москве продукция
представлена в розничной сети компаний «Белый ветер Цифровой», «Цифровой центр
ИОН», «Вобис Компьютерс», а также во многих салонах и павильонах электроники и
портативной техники.
Компания WIZCOM - мировой производитель портативных сканирующих устройств.
Основанная в 1995 году, компания WIZCOM постоянно ведет разработку уникальных
новых устройств и контента, стремясь обеспечить текстовые решения для различных
языков, включая и те, которыми раньше не занимались ни одно устройство или
программа.
30.09.2011. PROMT показал переводчикам перспективы машинного перевода
В ходе конференции Translation Forum Russia, прошедшей в Санкт-Петербурге 23-25
сентября 2011 г., компания PROMT продемонстрировала возможности систем машинного
перевода сообществу профессиональных переводчиков и потребителям переводческих
услуг. Представители PROMT провели секцию по машинному переводу, а также активно
участвовали в работе других секций. Возможности машинного перевода вызвали
неподдельный интерес у многих участников форума.
В конференции также участвовали популярные производители баз Translation Memory.
Это средство автоматизации перевода уже пользуется большой популярностью в
переводческой среде, тогда как по отношению к машинному переводу в России
остается предубеждение. Однако специалисты PROMT рассказали о совместимости
систем PROMT с базами Translation Memory и продемонстрировали впечатляющий
результат совместной работы. В частности, о своем опыте работы с использованием
обоих этих средств рассказал директор петербургского бюро переводов «Аргонавт»
Олег Выгодский.
Еще один важный момент автоматизации перевода – постредактирование. Доклад
специалиста PROMT Ирины Малышевой об оптимальных стратегиях постредактирования
также привлек всеобщее внимание.
Директор по развитию бизнеса Юлия Епифанцева презентовала профессиональному
сообществу инновационную идею гибридного перевода.
Кроме того, специалистами PROMT была рассмотрена весьма актуальная для
профессиональных переводчиков проблема работы с терминологией. Средства
автоматического извлечения терминологии, входящие в состав систем PROMT,
получили высокие оценки участников конференции, включая крупные иностранные
компании.
Санкт-Петербург, 19 октября 2011 г. Компания PROMT приняла участие в ежегодной
конференции TAUS (Translation Automaton User Society, ассоциация пользователей
автоматизированного перевода), прошедшей 6-7 октября 2011 г. в Калифорнии.
На этом мероприятии традиционно обсуждаются актуальные вопросы автоматизации
перевода, инновационные технологии в сфере локализации, а также вопросы
сотрудничества разработчиков автоматического перевода, бюро переводов,
локализационных агентств и компаний-клиентов. В программный комитет конференции
входят представители таких компаний, как Oracle, Intel, Symantec, Adobe,
Microsoft, McAfee и других, а среди участников этого года были сотрудники
AsiaOnline, Cisco, Caterpillar, Dell, eBay, Lionbridge, MultiCorpora, Siemens.
PROMT участвовал в совместной презентации с крупнейшей системой электронных
платежей PayPal, поставщиком решений по машинному переводу Safaba Translation
Solutions и международной локализационной компанией Welocalize. Представитель
PROMT рассказал об участии компании в проекте по внедрению решений по
автоматическому переводу в компании PayPal.
PayPal работает на рынке многих стран, и для компании имеет существенное
значение быстрый перевод на национальные языки контента разного типа, включая
пользовательские интерфейсы, онлайн-справку, часто задаваемые вопросы, сообщения
об ошибках, типовые письма службы поддержки, руководства пользователя,
электронную почту.
В рамках совместного проекта PROMT создал уникальную интеграционную платформу по
машинному переводу для локализационных целей. Эта платформа уже сейчас
поддерживает 10 направлений перевода, позволяет интегрировать решения по
машинному переводу сторонних разработчиков, полностью интегрируется в
локализационный процесс, использующий решение на базе Translation Memory –
WorldServer (Idiom), обеспечивает сохранение метаданных и другой форматной
информации, которыми традиционно насыщены тексты по программному обеспечению.
Это решение работает на базе PROMT Translation Server – серверного решения PROMT
с большими возможностями интеграции в документооборот и информационные процессы
компании-клиента.
«Мы все живем в эпоху интернета, когда люди годами могут вместе работать над
одним проектом и ни разу не встречаться, – рассказывает Юлия Епифанцева,
директор по развитию PROMT. – А конференции TAUS дают нам такую возможность.
Разработчики и поставщики решений по машинному переводу могут, наконец, лично
увидеть своих коллег и клиентов, познакомиться с разработками других компаний и
услышать о проблемах и насущных задачах по локализации, возникающих у компаний
разного типа. Это помогает нам идти вперед».
Санкт-Петербург, 9 ноября 2011 г. Компания PROMT сообщает об интеграции решения
по автоматическому переводу текстов в работу сайта СМИ2.
СМИ2 — это социальная новостная сеть, участники которой могут размещать
собственные новости, а могут комментировать и оценивать чужие публикации.
Основная масса пользователей пишет по-русски, поэтому, когда владельцы сервиса
решили создать англоязычную версию сервиса, им нужно было наладить оперативный
перевод большой массы контента, производимого пользователями. Если бы для этой
цели нанимали профессиональных переводчиков, проект стал бы «золотым».
Поэтому решено было использовать решение PROMT Translation Server 9.5 Developer
Edition. После его интеграции новости для международной версии сайта будут
переводиться автоматически.
7 декабря 2011. Среди продуктов Lingvo теперь появился еще один: ABBYY Lingvo
x5, который включает новые возможности для перевода и изучения языка. Покупая
ABBYY Lingvo x5 до 20 декабря 2011, вы получаете не только скидку в 40%, а еще и
дополнительный видеоурок «Калейдоскоп фактов» в подарок.
«Калейдоскоп фактов» содержит 24 программы на английском языке, посвященных
необычным фактам о нашей планете, истории и культуре. Просмотр всего комплекса
программ способствует более эффективному запоминанию слов, восприятию
иностранного языка на слух и повышению уровня разговорного английского.
Для изучения языка ABBYY Lingvo Tutor x5: комплекс из 5 типов упражнений.
Упрощает изучение часто употребляемой лексики и позволяет формировать
собственные наборы слов.
Видеоуроки: коллекция из 42 развлекательных и познавательных сюжетов для
повышения уровня разговорного английского. Помогает запоминать слова в реальных
ситуациях и развивает восприятие иностранного языка на слух. В сюжетах уроков
рассказывается об англоязычных странах, великих деятелях искусства и науки,
путешествиях и многом другом.
Более 40 примеров писем на различные темы для английского, немецкого,
французского и испанского языков.
Новые языки: теперь в ABBYY Lingvo x5 доступно 20 языков.
Новые словари: в самой полной версии ABBYY Lingvo x5 собрано 220 современных и
актуальных словарей от ведущих мировых издательств.
Новый портал Lingvo.Pro: доступ к обширной и постоянно обновляемой онлайн-базе
памяти переводов, уже сейчас содержащей более 1 000 000 примеров, для
английского, немецкого и французского языков.
Обновленный перевод по наведению: теперь возможно переводить слова в PDF-файлах,
Flash-роликах и даже в субтитрах к фильмам.
Санкт-Петербург, 17 ноября 2011 г. Компания PROMT сообщает об успешной
интеграции решения по автоматическому переводу текстов в работу компании
«Полиметалл Инжиниринг», входящей в структуру ОАО «Полиметалл».
«Полиметалл» – ведущая российская компания по добыче и производству золота, один
из крупнейших в мире производителей серебра.
ЗАО «Полиметалл Инжиниринг» – научно-исследовательский и проектный центр,
который проводит полный комплекс работ по освоению объектов недропользования, от
геологоразведки до ввода в эксплуатацию горно-металлургического комплекса.
Основные направления деятельности ЗАО «Полиметалл Инжиниринг» – проектная и
научно-исследовательская деятельность в области добычи и переработки полезных
ископаемых. В компании работает более 100 высококвалифицированных специалистов.
Решения PROMT для работы с иноязычной информацией применяются в компании
«Полиметалл Инжиниринг» уже 5 лет. В 2011 году компания перешла на серверное
решение PROMT Translation Server 9.0 IE.
С помощью решения PROMT специалисты из разных подразделений компании переводят
договоры и коммерческие предложения, документацию к импортному оборудованию,
презентации, технические стандарты и нормативы, отраслевые новости, деловую
переписку, проектную документацию, научную литературу, руководства пользователя.
Так как в компании установлено серверное решение, доступ к переводу через
веб-интерфейс легко получают сотрудники не только «Полиметалл Инжиниринга», но и
всей Управляющей компании ОАО «Полиметалл», включая головной офис в
Санкт-Петербурге и многочисленные управляемые предприятия, расположенные в
разных городах России от Урала до Чукотки и в Казахстане. Для подключения новых
рабочих мест не требуется установка программного обеспечения на каждый
компьютер, IT-службе достаточно предоставить доступ новым пользователям.
«Наши сотрудники часто пользуются переводом PROMT, – говорит заместитель
директора по проектированию Игорь Владимирович Эпштейн. – Доступ к машинному
переводу имеет любой сотрудник компании. Это очень удобно: с помощью PROMT можно
быстро получить общий смысл документа, письма, новости на сайте.
18.11.2011. PROMT приглашает на вебинар по решению для переводчиков
Компания PROMT продолжает цикл вебинаров «Машинный перевод для профессионалов
перевода», посвященный возможностям программы PROMT Language Service Provider
9.5 (LSP).
В ходе конференции Translation Forum Russia 2011, прошедшей в сентябре этого
года, представители PROMT получили большое количество вопросов о работе систем
перевода. Чтобы подробно рассказать о возможностях решений, в октябре PROMT уже
организовал два вебинара. Однако запросы от участников рынка продолжают
поступать, в связи с этим в ноябре состоится еще один бесплатный вебинар.
В программе:
• Почему бюро переводов и локализационные агентства во всем мире выбирают
машинный перевод?
• Оптимизация работы с терминологией с помощью программы PROMT.
• Ответы на вопросы по работе PROMT Language Service Provider.
29 ноября 2011 г. Компания PROMT сообщает об успешной
интеграции решения по автоматическому переводу текстов в работу
Санкт-Петербургского филиала ЗАО «ИШБАНК».
ИШБАНК – один из старейших российских банков, существующий с 1994 г. С апреля
2011 г. 100 % его акций принадлежит крупнейшему турецкому банку Turkiye IS
Bankasi Anonim Sirketi.
И уже летом 2011 г. в компании было развернуто новейшее решение PROMT – PTS IE
9.5, предназначенное для работы в корпоративных сетях.
С его помощью сотрудники компании работают с договорами, финансовой
документацией, деловой перепиской на иностранных языках, а также могут читать
отраслевые новости, не прибегая к услугам переводчиков и не переводя
конфиденциальную информацию в интернет-сервисах.
«Документооборот на иностранных языках резко возрос после того, как мы стали
частью иностранного банка, – рассказывает управляющий филиалом Алексей
Александрович Столетов. – Однако это не создало проблем, потому что мы
пользуемся автоматическим переводом. Наши сотрудники без труда освоили PROMT.
Даже те из них, чья специализация далека от иностранных языков, теперь
самостоятельно работают с документами, приходящими из-за границы».
Санкт-Петербург, 22 декабря 2011 г. Компания PROMT, российский разработчик
лингвистических IT-решений для корпораций и частных пользователей, сообщает о
выходе специализированных решений PROMT® Нефть и газ, PROMT® Металлургия, PROMT®
Энергетика, предназначенных для трех ключевых отраслей российской экономики.
На сегодняшний день решения PROMT по автоматическому переводу используют такие
российские гиганты, как «Газпром», «Лукойл» и «Норникель», а также ведущие
иностранные компании. Изучение опыта внедрения в этих и других компаниях
позволило компании PROMT создать готовые продукты, максимально учитывающие
особенности перевода документации в конкретной отрасли и отвечающие требованиям
заказчиков. Для каждого продукта были подготовлены десятки новых словарей,
содержащих от 5 000 до 30 000 терминов каждый. Общий объем специальной лексики
для одного продукта составляет 300-400 000 терминов.
В частности, в решение PROMT® Нефть и газ вошли словари по нефтедобыче,
нефтехимии, транспортировке нефти и многие другие. В решение PROMT® Металлургия,
в числе прочих, были включены словари по горному делу, экологии и геологии,
металлообработке, а в PROMT® Энергетика – по традиционной и альтернативной
энергетике, электротехнике, производству энергии и т. д. Не остались без
внимания и такие сферы, как финансы, экономика, вопросы права, налогообложения.
Для точного перевода типовых документов в решения включены специальные
настройки, «профили перевода», которые позволяют сохранить стиль и использовать
терминологию документов разного типа – технической и проектной документации,
договоров, инструкций, научной и специальной литературы и т. д.
С помощью нового решения любой сотрудник компании – инженер, менеджер,
финансист, юрист – может легко получить любой документ или сайт на родном языке.
Возможно также получить справочную информацию по всем словарям, включенным в
решения. При этом подключается «умный» поиск – слова и выражения будут искаться
в любой грамматической форме.
Доступ к переводу любой сотрудник получает мгновенно – через веб-интерфейс, без
установки программного обеспечения на каждом рабочем месте. Решением можно
воспользоваться и удаленно – из любой точки, где есть интернет. Это позволяет
компаниям предоставлять доступ к решению не только в головном офисе, но и в
филиалах, а также сотрудникам, находящимся в командировке.
При желании функции перевода PROMT можно встраивать в основные офисные
приложения и все популярные браузеры. В этом случае перевод документов,
переписки, сайтов происходит еще быстрее и удобнее – без переключения на окно
программы перевода.
После внедрения решения от 40 до 80 % информации, которая раньше могла проходить
через бюро переводов или онлайн-сервисы или просто откладывалась до лучших
времен, сразу поступает к специалисту, который работает с ней практически в том
же темпе, что и с текстами на родном языке.
«Развертывание инновационного решения по автоматическому переводу позволяет
компании экономить, что особенно актуально в сегодняшней непростой экономической
ситуации, – говорит Юлия Епифанцева, директор по развитию бизнеса PROMT. –
Уходят неоправданные расходы на перевод, заметно повышается производительность
труда, сотрудники концентрируются на основной работе и даже не замечают, как
привыкают к переводчику-помощнику, который всегда под рукой».
В начале 2012 года появятся решения PROMT еще для нескольких лидирующих
отраслей: банковской сферы, IT и телекоммуникаций, госсектора и т. д.
12.01.2012. Сервис онлайн-переводов Translate.Ru компании PROMT выпустил
мобильное приложение Translate.Ru для iPhone и расширил возможности приложения
для Android.
«Приложение для iPhone появилось всего через 3 недели после выхода Translate.Ru
для Android, – рассказывает Борис Тихомиров, директор интернет-проектов PROMT. –
А в феврале наши приложения уже будут адаптированы для планшетов под iOS и
Android. Таким образом, большинство пользователей мобильных устройств получат
удобный и оперативный доступ к переводу Translate.Ru».
Основное отличие мобильного переводчика Translate.Ru от существующих аналогов –
возможность выбора тематики. Одним нажатием кнопки пользователь может настроить
перевод на тему своего текста, например: иностранные языки, чат, личная
переписка, компьютеры, путешествия.
Для смартфонов Apple доступны следующие функции:
• перевод текста с вариантами выбора тематики,
• перевод отдельных слов с получением подробной справки по ним (варианты
перевода, части речи, транскрипция),
• перевод интернет-страниц целиком с сохранением вида исходной страницы,
• отслеживание и перевод содержимого буфера,
• автоматическое определение языка исходного текста,
• отправка результата перевода одной кнопкой в буфер обмена, по SMS или
электронной почте.
PROMT помогает автомобильному дилеру в общении с поставщиками
15.04.2012. Решение PROMT использует компания «Дон-Моторс», официальный дилер
Volvo, Jaguar, Range Rover и Land Rover на юге России.
Компания, уже более 10 лет работающая в Ростове-на-Дону, представляет зарубежные
премиум-бренды. Для оперативного выяснения вопросов поставки и обслуживания
автомобилей сотрудникам компании требуется напрямую общаться с поставщиками, не
затягивая переписку и принятие решений. Чтобы постоянная необходимость перевода
не тормозила бизнес-процесс, в компании было развернуто решение PROMT
Translation Server 9.5 Intranet Edition с полным комплектом словарей.
Это решение позволяет обеспечить мгновенным переводом текстов сразу десятки или
даже сотни сотрудников компании. Так как для доступа к серверу переводов
используется веб-интерфейс, подключение новых пользователей происходит без
особых усилий, а пользоваться переводом можно не только в головном офисе, но и в
удаленных филиалах. Кроме того, решение можно централизованно настроить на
специализированную терминологию и другие особенности текстов компании.
Подключение к серверу словарей PROMT позволило сразу включать в переводы нужную
лексику по автомобильной тематике, IT, бизнесу, логистике, электронике и другим
областям знаний.
Функции перевода PROMT можно встроить в различные офисные приложения, в том
числе – в Outlook, чем и воспользовались сотрудники компании: это дало им
возможность переводить переписку прямо в почтовой программе, даже не
переключаясь на сервис перевода.
«Использование решения PROMT в компании «Дон-Моторс» позволило нам сделать более
быстрым и эффективным взаимодействие с нашими зарубежными партнерами, а также
упросить процесс работы с технической документацией, – говорит Эдуард Долгачев,
руководитель IT-отдела компании. – Благодаря этому, мы можем более качественно
обслуживать клиентов, предоставляя им лучший сервис, что особенно важно при
работе в премиум-сегменте».
Специалисты в области электронного (искусственного) слуха
Александрова О.: "Фоностенография - слуховая скорость"
Андреев Михаил Юрьевич: "Командные системы распознавания речи, системы
идентификации дикторов"
Андреев С. Е.: "Распознавание образов в дискретном линейном потоке"
Андреева И.: "Звуковые волны в океане"
Бабкин В. В.: "Помехоустойчивый выделитель основного тона речи"
Баландин А. В.:
"Структурно-параметрический синтез нейронных сетей в системах биометрической
идентификации личности по голосу"
Барсуков А. П.: "Звуковые каналы робототехнических систем", "Электронные
версии зрения и слуха", "Цифровое автоматическое распознавание речи"
Бовбель Е. И.: "Статистические методы распознавания речи: скрытые
Марковские модели"
Богданов Дмитрий: "Создание речевого корпуса RuSpeech"
Бояров Александр Григорьевич: "Использование технологий идентификации
диктора по произвольной речи и распознавания ключевых слов в системах
безопасности для автоматизированной обработки больших объёмов речевой
информации"
Бреховских Л.: "Звуковые волны в океане"
Булатов В. С.: "Измерение ветровосприимчивости микрофонов", "Повышение
виброзащиты конденсаторных микрофонов"
Величко Инна: "О фоноскопической экспертизе"
Винцюк Т. К.: "Распознавание слов устной речи методами динамического
программирования"
Гвоздев Е.: "Гипотеза о причинах различия высокочастотных границ
звуковосприятия человека и животных"
Гоц С. С.: "Компьютерная программа для анализа спектральных и
статистических характеристик звуковых сигналов"
Демидов В.: "На дальних подступах к слышащим машинам"
Дворянкин С. В.: "Нормировка слов в системах распознавания речи"
Елисеев В.: "4071-ВМ - всенаправленный микрофон, который внутри себя
подавляет ветер и шум", "Микрофоны для бродкастеров"
Жонин А. А.: "Методика синтеза системы голосового управления
робототехнической системой"
Зубов Г. Н.: "Распознавание речи сегодня и завтра"
Иванов А. В.: "Моделирование аудиторной суппрессии в частотной области на
основе СДПФ для выделения признаков распознавателей речи повышенной
эффективности в условиях шумов"
Калинцев Ю. К.: "Разборчивость речи в цифровых вокодерах"
Каргашин Виктор Леонидович: "Обзор зарубежных методов определения
разборчивости речи"
Кастельянос Г.: "Цифровая обработка речевых сигналов для их классификации"
Колоколов А. С.: "Использование принципов работы периферических отделов
слуховой системы для построения анализатора с высоким частотно-временным
разрешением", "Обработка спектра речевого сигнала", "Вероятностное
преобразование рецепторного потенциала в активность волокон слухового нерва и
восприятие высоты звука"
Косарев Юрий: "Речь и компьютер: серия международных семинаров SPECOM в
Санкт-Петербурге"
Кочетков Ю. А.: "Цифровая обработка речевых сигналов для их классификации"
Куликов Алексей Владимирович: "Речевой портал с дикторонезависимым
распознаваанием русской речи и иностранных языков"
Литвиненко С. Л.: "Метод сегментации спектрограмм речевого сигнала"
Лысов А. В.: "Лазерные микрофоны - универсальное средство разведки или
очередное поветрие моды?"
Любинский И. А.: "Использование принципов работы периферических отделов
слуховой системы для построения анализатора с высоким частотно-временным
разрешением", "Исследование алгоритмов работы слуховой системы при восприятии
ритмических сигналов на фоне аддитивных и неаддитивных шумов", "Вероятностное
преобразование рецепторного потенциала в активность волокон слухового нерва и
восприятие высоты звука"
Людовик Е. К.: "Методы определения мгновенного периода основного тона
речи, основанный на динамическом программировании"
Меерзон Борис: "Основные электрические характеристики канала
звукопередачи"
Мельников А.: "Гипотеза о причинах различия высокочастотных границ
звуковосприятия человека и животных"
Павловский Владимир Владимирович:
"Интеллектуальная система
технического слуха роботов"
Павловский Владимир Евгеньевич:
"Интеллектуальная система
технического слуха роботов"
Палладин Александр Александрович:
"Как сова пеленгует звуки"
Петин О. П.: "Тактильный индикатор звука"
Петровский А. А.: "Моделирование аудиторной суппрессии в частотной области
на основе СДПФ для выделения признаков распознавателей речи повышенной
эффективности в условиях шумов"
Поливцев С. А.:
"Интеллектуальная система технического слуха роботов"
Рашевский Ярослав Игоревич: "Обзор зарубежных методов определения
разборчивости речи"
Рыжов А.: "Микрофоны: внимание при выборе"
Свириденко В. А.: "Аутентификация личности по голосу"
Смирнова Н. С.: "Распознавание речи сегодня и завтра"
Столяр Дмитрий Альбертович: "Распознавание русской речи в системе
автоматической справки "Абитуриент" и автоматической службе "09"
Суарез Х.: "Цифровая обработка речевых сигналов для их классификации"
Сушков Алексей: "Голос как инструмент управления"
Тампель Иван Борисович: "Использование технологий распознавания звуковых
образов в мультимедийных приложениях. (Программы распознавания речи "Voice
Navigator" и "Труфальдино", динамическая библиотека распознавания голосовых
команд VoiceCom SDK, "Система контроля радио и звуковых каналов телевидения "Music
Spotting")"
Татарникова Марина Юрьевна: "Использование технологий распознавания
звуковых образов в мультимедийных приложениях. (Программы распознавания речи "Voice
Navigator" и "Труфальдино", динамическая библиотека распознавания голосовых
команд VoiceCom SDK, "Система контроля радио и звуковых каналов телевидения "Music
Spotting")"
Тележкин В. В.:
"Структурно-параметрический синтез нейронных сетей в
системах биометрической идентификации личности по голосу"
Тележкин В. Ф.:
"Структурно-параметрический синтез нейронных сетей в
системах биометрической идентификации личности по голосу"
Фирсов Л.: "Изучается обезьяний "словарь"
Хашан Т. С.:
"Интеллектуальная система технического слуха роботов"
Хейдеров И. Э.: "Статистические методы распознавания речи: скрытые
Марковские модели"
Хитров Михаил Васильевич: "Распознавание дикторов в системах ЦРТ для задач
мониторинга каналов связи и криминалистических приложений"
Цукерман В.: "Глухота и сурдотехника"
Цукерман И.: "Глухота и сурдотехника"
Чудаков Алексей Николаевич: "Распознавание образов и речи"
Шварц Л. А.: "Слово как условный сигнал", "Условные рефлексы на словесные
раздражители"
Эстрин Е. С.: "Измерение ветровосприимчивости микрофонов"
Юсупов Рафаэль: "Речь и компьютер: серия международных семинаров SPECOM в
Санкт-Петербурге"
Яхно В. П.: "Использование принципов работы периферических отделов
слуховой системы для построения анализатора с высоким частотно-временным
разрешением", "Исследование алгоритмов работы слуховой системы при восприятии
ритмических сигналов на фоне аддитивных и неаддитивных шумов"
ЗАРУБЕЖНЫЕ ИСТОЧНИКИ
Аношенко А. Е. (Минск): "Метод подавления эхо сигнала и шумов
окружающей среды на основе спектрального вычитания с психоакустической
мотивацией", "Комбинированная система подавления эха и шумового сигнала на
основе обработки в частотной области с использованием психоакустического
подхода"
Бастиенз Гастон: "Технологии распознавания речи"
Винокуров Алекс:
"Система для распознавания звука и определения местонахождения его источника"
Грей А. Х.: "Линейное предсказание речи"
Есьман Г. М. (Минск): "Распознавание голосовых команд методом
линейного предсказания в системах управления техническими объектами"
Коноваленко Н. М. (Киев):
"Явление основного тона"
Лавайн Джон: "Роботы, андроиды и аниматроны" (глава "Мобильные роботы с
голосовым управлением"), "PIC-робототехника. Руководство для начинающих по
проектированию робототехники с использованием PIC микроконтроллеров" (глава
"Распознавание речи")
Маркел Дж. Д.: "Линейное предсказание речи"
Месегуэр Франциско ''(Испания): "Акустический кристалл, способный гасить
шум и видоизменять его характер"
Остапенко Александр ''(Минск): "Система распознавания речи Sakrament ASR
Engine", "Система идентификации голоса Sakrament Voice Identification Engine"
Петровский А. А. (Минск): "Метод подавления эхо сигнала и шумов
окружающей среды на основе спектрального вычитания с психоакустической
мотивацией", "Комбинированная система подавления эха и шумового сигнала на
основе обработки в частотной области с использованием психоакустического
подхода"
Помпи Джозеф: "Звуковой прожектор"
Рабинер Л. Р.: "Цифровая обработка речевых сигналов"
Савыгин П. Е. (Минск): "Применение математического аппарата нечеткой
логики для классификации музыкальных композиций по жанрам", "Точные методы
измерения параметров звуковых сигналов, определённых ГОСТ 11515-91"
Садовская К. М. (Минск): "Применение математического аппарата нечеткой
логики для классификации музыкальных композиций по жанрам"
Свен Ярле (Норвегия): "Система, "узнающая" конкретный голос"
Сейкити Окудзава: "Радиолюбительские конструкции на транзисторах"
(из статьи "Электронный
звонок на трёх транзисторах, срабатывающий от голоса")
Фельдкеллер Р.: "Ухо как приёмник информации"
Цвикер Э.: "Ухо как приёмник информации"
Шафер Р. В.: "Цифровая обработка речевых сигналов"
Янчич В. В.: "Тактильный индикатор звука"
Распознавание речи в системах массового обслуживания
реализовано Лабораторией автоматизированных систем массового обслуживания
Института проблем управления им. В. А. Трапезникова РАН. Разработаны голосовые
интерфейсы к различным информационным и сервисным системам: «Сирена»,
диспетчерская такси, созданы пакеты распознавания речи к службам системы Web
Money.
Например, для получения справок о рейсах клиент, в режиме диалога с компьютером,
отвечая на его наводящие вопросы, называет город назначения, месяц и число
вылета и получает ответ. Похожий диалог происходит во время заказа такси, причем
в обоих случаях компьютер подстраховывается и переспрашивает клиента о том,
правильно ли поняты системой параметры заказа.
Несколько сложнее выглядит диалог, целью которого служит пополнение счета
мобильного оператора. Компьютер спрашивает, чего именно хочет клиент: провести
операции, получить информацию о балансе, сменить пин-код или изменить уровень
безопасности. Если клиент хочет провести операцию, то компьютер перечисляет виды
операций, чтобы клиент в ответ назвал одну из них. Например, оплата мобильного
телефона. Компьютер предлагает выбрать одного из операторов мобильной связи.
Затем -–тип кошелька: Z (доллары) или R (рубли). Затем – назвать целое значение
суммы в рублях, которую клиент хочет перевести на лицевой счет. Получив этот,
последний ответ компьютер просит подождать, сказав, что запрос обрабатывается,
после чего извещает, что оплата успешно завершена и что лицевой счет будет
пополнен в течение часа. А.
Барсуков, журнал "ТКТ" № 7, 2004 г. (через эту ссылку можно бесплатно скачать
справочник)
ОСОБЕННОСТИ ЭМОЦИОНАЛЬНО-ОБРАЗНОЙ ИНФОРМАЦИИ В
ТЕЛЕРАДИОВЕЩАНИИ (В. А. Абрамов, О. Б. Попов, Ю. С. Рысин, МТУСИ, Москва);
FEATURES OF THE EMOTIONAL - SHAPED INFORMATION IN TELEBROADCASTING (V. A.
Abramov, O. B. Popov, J. S. Rysin, МТUSI, Moscow) По докладу на 17-й Международной
научно-технической конференции «СОВРЕМЕННОЕ ТЕЛЕВИДЕНИЕ»
Современное все более усложняющееся постиндустриальное общество, находящееся в
состоянии непрерывного изменения, нуждается в людях, доросших до его все
возрастающих требований. Компьютерная и телерадиовещательная техника достигли
таких высот, что говорят о наступлении информационного общества, когда главным
сырьем становится информация. Однако выяснилось, что одновременно с усложнением
общества и появлением умных машин происходит процесс упрощения человека, упадка
культуры, нравственности, способности к усвоению информации. Т.е. подрывается
фундамент, на котором строится информационное общество
Какие причины порождают данные негативные явления? Было выяснено, что одной из
главных причин являются телевизор и компьютер. Это связано с особенностями
восприятия информации с экранов данных устройств. Дело в том, что человек
воспринимает, по крайней мере, три вида информации: смысловую (или
семантическую), эмоциональную и инстинктивно-двигательную [1]. В мозгу человека
осуществляется разделение информации на каналы по принципу ее обработки. При
этом левое полушарие обрабатывает семантическую информацию, правое –
эмоциональную, а более древние глубинные структуры мозга -
инстинктивно-двигательную информацию.
Особенностью эмоциональной правой половины мозга является то, что она
воспринимает все явления внешнего и внутреннего мира в виде единства,
соединенности, целостной образной формы. Такое свойство эмоций часто выражается
в виде стойких привязанностей.
Слушая эмоционально окрашенный голос, человек как бы входит через этот звук в
резонанс с эмоциональным состоянием другого человека и начинает сам испытывать
аналогичные эмоции. Этот процесс, происходящий на уровне подсознания, позволяет
человеку легко понимать язык эмоций других людей, а также животных. Возникает
своеобразная эмоциональная синхронизация между источником получателем. Такая
синхронизация выражается в частности в совпадении микродвижений тела, а также
биоритмов мозга [2].
В отличие от эмоционально-образной информации, механизм восприятия которой в
значительной степени уже имелся при рождении человека, для восприятия
рационально-смысловой информации требуется обучение и огромные собственные
усилия человека. Опасность телевидения для человека заключается в том, что на
него действует поток уже готовой информации, не требующей от человека каких-либо
собственных усилий. Вследствие этого развитие механизма восприятия
рационально-смысловой информации и критических способностей у человека
останавливается или атрофируются. Ведь жизнь основана на собственных усилиях и
функциях.
Было выяснено, что воздействие телевизионного экрана таково, что при просмотре
телевизионных программ у человека ослабляются бета-ритмы мозга, связанные с
восприятием рационально-смысловой информации, критикой и начинают преобладать
альфа-ритмы мозга, связанные с эмоционально-образным восприятием информации. То
есть, при телепросмотре наступает так называемое «альфа-состояние» [2]. Такое
состояние близко к трансу, то есть, имеет место пассивное восприятие без
собственного участия.
Особенностью восприятия информации в «альфа-состоянии» является то, что она не
подвергается анализу, критике, она не разложима и нечувствительна к
противоречиям. Сознание людей в этом случае оперирует не столько понятиями,
сколько эмоционально окрашенными образами, символами. Оказывается, что при
восприятии информации в «альфа-состоянии» наиболее легко манипулировать людьми.
Таким образом, при неумеренном потребление телевизионной информации получается
результат в виде "тысячи миллионов счастливых младенцев", о которых говорил
Великий Инквизитор в романе Ф.М. Достоевского «Братья Карамазовы».
Вследствие использования механизма, эмоционально-образного восприятия информации
при длительном просмотре телевизионных программ, перегруженных сценами ужаса,
насилия, убийств, жестокости, садизма, приводит к отупению чувств. Такой человек
уже не реагирует на пение птиц, шум леса, тихую медленную музыку и чтобы
почувствовать себя "живым" он нуждается, как в наркотике, в экстраординарных,
сильных стимулах в виде громкой ритмичной музыки, фильмов ужаса, сцен насилия,
жестокости .
Для повышения рейтинга, а значит и доходов телевизионных и радиовещательных
программ необходимо, чтобы у людей возникала стойкая привязанность к данным
программам. Как этого можно достигнуть? Главным образом на основе подачи в
больших количествах примитивной, но вызывающей сильную зависимость,
эмоционально-образной информации и как можно в меньших количествах
рационально-смысловой информации высоких уровней осмысления.
При этом, кроме содержательной стороны эмоционально-образной информации, для
усиления вовлеченности аудитории, уделяется внимание также методам студийной
обработки вещательных сигналов, способствующих дополнительному усилению
эмоциональной привязанности у слушателей и зрителей. Так, при подъеме
высокочастотных и низкочастотных компонент в спектре звукового сигнала, а также
при воздействии на динамику, перепады уровней и мгновенных частот этого сигнала
достигается усиление эмоциональной информативности и, как следствие,
вовлеченности слушателей [3].
В связи с этим для обнаружения эмоционально-образной информации в вещательных
программах и предупреждения об этом слушателя можно использовать следующие
параметры акустических сигналов [3]:
- атаки и спады элементов амплитудной огибающей акустических сигналов, а также
количество этих атак в единицу времени (ритмическая структура);
- доминирующие частоты, соответствующие наиболее мощным спектральным компонентам
сигнала в заданный момент времени;
- коэффициенты формантной выраженности, характеризующие степень концентрации
энергии в узкой полосе частот;
- дисперсия огибающей текущего спектра;
- относительная средняя мощность сигнала и другие ненормированные в настоящее
время параметры.
Важно обнаруживать в информационных сигналах периоды, когда содержание
эмоциональной информации становится столь большим, что может вызвать у человека
сильную привязанность с отключением механизма критического восприятия. Для этого
необходимо контролировать перечисленные ранее параметры сигналов и подавать
слушателю предупреждающие сигналы об опасности.
Однако следует иметь в виду, что сознание человека, опирающееся в основном на
эмоционально окрашенные образы и в котором неразвит собственный
рационально-смысловой механизм обработки информации, оказывается подобным
неживому материалу. Такое сознание поддается обработке извне, когда из него
можно изготовить любое изделие, как в виде героя, так и негодяя. Но, если
сознание человека живое, подобное растению, то оно во многом само определяет из
какого информационного материала себя строить. Поэтому одни виды информации
такое сознание усваивает, а другие виды отбрасывает. Все другие виды защиты –
административные, индивидуальные пихотренировки или технические методы
распознавания патологической информации не дают полноценной информационной
защиты человеку. Нужен иммунитет на такую информацию. А иммунитет может
возникать только у живого сознания. У сознания подобного мертвому камню
иммунитет не возникнет.
Литература
1. Морозов В. П. Вычислительная техника и ее применение. М.: Знание, 1989, № 9.
2. Райнер Пацлаф «Застывший взгляд Der gefrorene Blick» Издательство: Evidentis,
2003 г.
3. Абрамов В. А., Павлова Ю. А. Рысин Ю. С Информационное воздействие акустических
сигналов телерадиовещания на человека. «Электросвязь», № 2, 2007, с. 56-58.
Виртуальный секретариат. При изучении российской компьютерной прессы
последних месяцев бросается в глаза серьезное противоречие. С одной стороны, совершенно очевидно, что ведущие мировые
фирмы добились практических результатов в области интерактивной передачи и
воспроизведения трехмерных изображений для мобильных устройств и теперь начинается широкомасштабное внедрение
разнообразных приложений. С другой стороны, при чтении этой же прессы создается впечатление, что такими вопросами
занимаются исключительно за рубежом —
хотя нам лично приходилось видеть немало отечественных разработок, в том числе
и компьютерного телевизионного диктора.
Подобное положение вещей имеет несколько объяснений.
1. Российская компьютерная пресса находится, большей частью, под сильнейшим влиянием иностранных компаний,
для которых наши разработчики являются
либо конкурентами, либо потенциальной
собственностью.
2. Внутри российской компьютерной
элиты образовались непростые взаимоотношения, когда игнорировать друг друга бывает
нормой поведения.
3. Разработчики и сами не без странностей.
4. Наконец, особенности сложившей в
стране феодальной системы таковы, что
любая интеллектуальная собственность защищена чрезвычайно слабо и творческому человеку нет никакого смысла продвигать свои идеи на массовый рынок, поскольку все дивиденды все равно достанутся хозяину.
Однако, несмотря на перечисленные
трудности, российскими разработками поддерживается основной набор сервисов, необходимых для интерактивного взаимодействия программы с пользователем. Рассмотрим в качестве примера компьютерного русскоговорящего инструктора (рис. 1),
созданного фирмой «Зеленый остров» в
рамках проекта «Глобал Т. Э. М. Р.» (творчество, энергия, мышление память). На
рисунке инструктор показывает, как делать
массаж, а, кроме того, в соответствии с
другими задачами совершает другие движения, экзаменует, советует и т. д. Для этого
инструктору достаточно небольшого окна
— порядка 1-3 дюймов по диагонали (даже такого маленького
окошка достаточно,
чтобы рассмотреть,
как инструктор обучает упражнению для уставших глаз).То есть,
размер дисплея мобильного телефона: как
раз для мобильных видеотелефонов третьего поколения за рубежом созданы OLED-экраны с диагональю 2,2 дюйма, поддерживающие 260 тыс. цветов. Созданы
OELD-дисплеи и с диагональю 13 дюймов и разрешением 800 х 600 (напомним, что названная технология позволяет сделать
экран тоньше и легче, а также снизить энергопотребление вдвое по сравнению с ЖК).
На осенних зарубежных выставках электроники практически утвердился MPEG-4 как формат для воспроизведения видео
на сотовых телефонах, интернет-видеоплейерах и других мобильных устройствах.
Российские специалисты также активно
осваивают работу с MPEG-4, сулящим
большие перспективы в анимации человеческой головы, на построенную модель
которой можно «натянуть» видеотекстуру
лица того или иного человека, а также задать на полигональной сетке точки, ответственные за выражение эмоций. Здесь
вполне корректной является тема замены
«живого видео» темой компьютерной графики, поскольку фотореалистичность
последней достигла такой степени, что для
одной из известных зарубежных «компьютерных звезд» удалось сделать прическу
из 60 тыс. отдельных прядей волос. Проблема оказалась в другом: на студии
Square, где создали ту «кинозвезду», не стали добиваться полного сходства с настоящими актерами из-за сложности заключения с ними договоров на использование их
внешности, голосов и т. д. Но это на Западе, где гонорары живых кинозвезд заоблачны. У нас ситуация с оплатой, как уже
говорилось, интеллектуальной собственности иная и этот недостаток в данном
случае может сыграть положительную
роль во внедрении практики придания
компьютерному собеседнику популярнейших внешности и манер «под заказчика».
Однако, теперь, когда процесс создания
компьютерных референтов из стадии
экспериментов перешел в стадию бизнеса,
выяснилось, что живому прототипу, чтобы
стать моделью, одну только популярную
внешность иметь недостаточно.
Наиболее образно природа данного феномена сформулирована в Советском
энциклопедическом словаре: «Секретариат ЦК КПСС, создается для руководства
текущей работой, главным образом по подбору кадров и организации проверки принятых решений. Как руководящая коллегия сложился в 1920». Это определение всеобъемлюще уже потому, что подразумевает как незаменимость, так и опасность
мощного секретариата. Незаменимость
здесь в масштабности охвата информации:
для организации работы сотрудников современного офиса его необходимо подключить как можно к большему количеству архивных систем, чтобы получать
справки буквально обо всем; человек-референт не сможет в силу биологической
ограниченности все предусмотреть, организовать, ответить на любой вопрос и даже
знать, при помощи какой поисковой системы давать ответ. Поэтому речь идет даже
не об Интернете, как о всемирной информационной сети — скорее, о Всемирной
архивно-справочной сети.
Опасность — в неизбежном влиянии
местных особенностей, заложенных еще в
упомянутом 1920 г. Возьмем для примера
комплекс автоматизации управления персоналом «Оазис» (ГИВЦ Москвы), модуль
которого «Персонифицированный учет
сотрудников» (рис. 2) способен отследить
перемещение сотрудника фирмы в другое
ее подразделение при помощи команды
«Вставить». Но что теоретически может получиться, учитывая наши традиции? Секретарша нажмет клавишу «Вставить», комплект документов (включая приказ о перемещении с электронной подписью директора) автоматически оформится и где-то в
отдаленном филиале огромной компании
ее сотрудник будет переведен на неустраивающую его работу и даже пожаловаться
никому не сможет. Именно в России
главная проблема не в технической стороне вопроса, а в человеческом факторе. Разработчик мало получает денег и поэтому у
него комплекс «непризнанного гения», вокруг
которого все должны бегать и брать у него интервью. Отсюда и типичная черта российских
интерактивных программ — не «услужить», а
«проэкзаменовать».
Однако, если живых
офис-менеджеров заменить на виртуальных, то
«Оазис» может служить
основой для создания
видеосистемы персонифицированного учета
потенциальных посетителей фирмы, круг
которых не так велик, как поначалу кажется: количество деловых людей в мире,
а, тем более, в нашей стране ограничено
(по типу справочников «Кто есть кто») и в
архив они уместятся. Главное — при составлении архива придерживаться «Основ
законодательства Российской Федерации
об Архивном фонде Российской Федерации и архивах», ст. 7 которых гласит:
«Юридическим и физическим лицам
Российской Федерации гарантируется
право на создание архивов.
Не допускается... создание тайных архивов, затрагивающих нрава и законные
интересы граждан».
Посему, чтобы работать в рамках сложившейся в нашей стране практики, рекомендуется брать за основу системы анализа и
поиска видеоинформации, уже де-факто
прошедшие сертификацию в учреждениях
Российской Федерации — такие, как Excalibur Screening Room, о которой подробно
рассказывалось в «ТКТ» № 1 и № 2 за 2000 г.
Мы не первый раз обращаем внимание
на необходимость изучения менеджерами
предприятий тонкостей архивного законодательства — особенно, когда речь идет о
накоплении данных на конкретных людей.
С одной стороны, без накопления таких
данных функционирование многих предприятий очень затруднено — например,
средств массовой информации. Но, с
другой стороны, те же информационные
структуры могут быть и обвинены в накоплении таких данных — например, еще памятна история с «Медиа-Мостом». Однако, есть тонкость: но существу, «Медиа-Мост» был обвинен не столько в накоплении персональных данных, сколько в неблаговидном их использовании — от чего,
собственно, и предостерегает закон. Конечно, все понимают, что коль скоро персональные данные накоплены, трудно
удержаться от их использования в конкурентной борьбе (то есть, против «прав и
законных интересов граждан»), однако,
вышеупомянутый пример как раз и показывает, насколько важно соблюсти формальности и доказать, что персональные
данные собираются предприятием исключительно в благородных целях. Так, известно, что многие игорные заведения ведут
данные собираются предприятием исключительно в благородных целях. Известно, что многие игорные заведения ведут
персонифицированный учет своей клиентуры по типу картотеки, изображенной на
рис. 2. Но менеджеры казино оправдывают это необходимостью отсекать публику,
уличенную в мошенничестве — а поскольку ставка налога на игорные заведения
очень высока, то властям нет смысла возражать против применения спецтехники
для защиты игорного бизнеса. В итоге получаем парадоксальное явление: телекомпании не видят особых стимулов применять для своих видеоархивов систему
Excalibur, а казино — сколько угодно, причем почти по ее классической схеме, изображенной на рис. 3.
Технология Excalibur позволяет производить поиск видеоинформации по индексированному массиву объемом 5 ТБайт со скоростью 5-15 с. В случае казино под индексированным массивом понимается набор
карточек, подобных изображенной на рис.
2, где фигурируют лица, замеченные в неоднократных крупных выигрышах, подозрительных разговорах с крупье и т. п. Этих лиц
в помещениях казино и возле входа отслеживают многочисленные видеокамеры. Не
будем сейчас останавливаться на том, как
именно происходит распознавание лиц и
анализ материалов такой видеосъемки — об
этом детально и с цветными скриншотами
рассказано в «ТКТ» № 2 за 2000 г. Сейчас
важно отметить другое: тот грамотный подход, при помощи которого заведения и горного бизнеса могут внедрять у себя спецтехнику, которая, в числе прочего, позволяет
накапливать персональные данные, которые, в числе прочего, есть оружие для конкурентной борьбы. Конечно, иметь такое
оружие еще не означает его применять, однако, очень многим руководителям его хотелось бы иметь на законных основаниях. А
чтобы такое желание осуществилось, руководитель и должен внедрить у себя на фирме систему «виртуального секретариата». С
этой темой руководители предприятий уже
ознакомились в статье о поставляемых в
Россию фирмой Activision голографических
экранах и аспектах их применения в качестве дисплейной части виртуальных секретариатов (см. «ТКТ» № 8 за 2001 г.).
Могут возразить: велик ли эффект от виртуального референта, даже отображенного голографическим экраном, если он не сможет общаться с клиентом фирмы по-русски? Вопрос совершенно правильный и
именно поэтому исследование на тему
«виртуальный секретариат» не имело бы
смысла, если бы в конце прошлого года
корпорация Intel не пригласила нас на совместную с компанией Cognitive
Technologies пресс-конференцию: в результате
их сотрудничества впервые в России создан
обширный инструментарий для разработки
систем распознавания речи. То есть, уже на
тот момент разработчики подошли вплотную к созданию промышленной системы
распознавания русской речи, поскольку в
состав названного инструментария вошел
крупный речевой корпус русского языка RuSpeech, достаточный для распознавания
естественной речи говорящего в реальном
времени. Создание такого корпуса было
сложнейшей задачей ввиду сложности
грамматики и фонетики русского языка. По
существу, RuSpeech является речевой базой
данных, с которой компьютеру надлежит
«сверять» естественную речь диктора, распознавая не только слова, уже присутствующие и базе, но и отдельные фонемы и последовательности фонем русского языка, что
позволяет минимизировать количество
ошибок при распознавании новых, отсутствующих в корпусе слов.
Тексты для речевого корпуса создавались
220 дикторами, каждый из которых прочел,
в среднем, более 250 предложений. Таким
образом, в состав речевого корпуса входит
более чем 50 тыс. предложений с фонетической разметкой каждою произнесенного предложения. На момент презентации
RuSpeech содержал порядка 50 часов непрерывной речи объемом 15 ГБайт, размещаемых более чем на 30
CD (объем, в несколько раз превышающий популярные речевые
базы английского языка WSJ Speech и TIMIT). На пресс-конференции было
детально рассказано о всех стадиях и особенностях создания речевых корпусов и
именно этот рассказ убеждает в том, что при
создании офисных приложений, основанных на распознавании русской речи (а
RuSpeech по многим признакам создавался,
прежде всего, для решения офисных задач,
и даже испытательным полигоном для него
служили офисные помещения) одну из
ключевых ролей должны сыграть работники кинематографической индустрии и, в
том числе, ее актерский состав, а
также специалисты аудиовизуальных архивов. Поясним это на
примере проблем, встречающихся
при создании речевых корпусов.
На рис. 4 показана структура
речевого корпуса — такого, как RuSpeech. Сеты 1, 2 и 3 образуют
собой состав речевого корпуса, где Train — это набор для обучения
алгоритмов распознавания, Test —
множество для разработки и тестирования систем, Develop — множество для разработки и тестирования алгоритмов, а также есть еще
Bad — для
экспертов, оценивающих «произнесения»,
имеющие особенности голоса диктора.
Структура системы отражает ее эволюцию,
когда от распознавания дискретной речи
(то есть, речи с паузами) необходимо было
перейти к распознаванию непрерывной
речи, а также сделать ее «дикторонезависимой». В принципе, это как бы бесконечное стремление к идеалу, где качество
распознавания зависит от представительности обучающего корпуса, то есть:
— больше дикторов,
— больше фонетических сочетаний,
— еще более разнообразная тематика прочитанных текстов,
— диалектные особенности.
В базовой ситуации распознавания текстового материала, в транскрипции которого 114
монофонов (фонем), полное фонетическое
покрытие (встречаемость каждого монофона
не менее трех раз) обеспечивают 70 предложений. Но монофоны образуют собой последовательности — трифоны (набор трех монофонов). Почти полное трифонное покрытие (встречаемость почти каждого из существующих
трифонов) обеспечивают 3600
предложений, при этом подразумевается, что
специального подбора слов не осуществлялось и набор отражает естественную частотность монофонов в языке. Считается, что в
системе RuSpeech высокая репрезентативность монофонов и их сочетаний достигнута
благодаря текстовому материалу из ряда московских изданий достаточно «ширпотребовского» характера. Да, в качестве первого
результата это прекрасно, однако во всем
мире сейчас идет активная работа по созданию специализированных речевых корпусов
для разнообразных индустриальных систем
распознавания речи, в которой большую роль
играет, в частности, профессиональный
сленг, а также личностные особенности говорящих — например, мимика может придать
слову совершенно противоположное значение. Вот почему даже на данной пресс-конференции неоднократно заходила речь о симбиозе систем распознавания речи с системами распознавания лиц. И тогда при создании
профильных речевых ресурсов не обойтись
без помощи кинематографа (рис. 5).
Рис. 5. Иллюстрация к особенностям специализированного речевого корпуса для виртуального секретариата правоохранительных органов. Секретарша районного прокурора (актриса
Юлия Яковлева) в телесериале «Тайны следствия» координирует действия участников
следственной группы в условиях их непростых
личных взаимоотношений
Прежде всего, киноархивы, равно как и
другие аудиовизуальные архивы, должны
обратить внимание на качественно новый
рынок, открытый для них технологиями
распознавания речи. После того, как в течение последних лет была снята большая
часть технических проблем (в том числе
дикторозависимости и аппаратных требований) объем мирового рынка таких систем в
2001 г. компанией Datamonitor был оценен
в 650 млн. долл. В ближайшие 5 лет по ее
прогнозам этот рынок увеличится почти в
10 раз и составит 5,6 млрд. долл. А по оценкам департамента маркетинга компании
Cognitive Technologies объем рынка речевых
технологий в России к 2006 г. может составить порядка 200 млн. долл. Однако, поскольку, как нам показалось в ходе пресс-конференции, специалистами этой компании учитываются не все факторы, рынок систем распознавания речи в России (да и во
всем мире) будет намного более богатым.
В частности, неминуема широкомасштабная «зачистка» виртуальными секретаршами живых секретарш, которые, в большинстве своем, решают на рабочем месте не
служебные, а свои личные проблемы. Приведем в качестве примера ту область, которая
нам по роду профессии известна на практике
- «пресс-секретарш» из числа сотрудниц т.
н. «PR-агентств», занимающихся аккредитацией журналистов на пресс-конференции богатых фирм. Такие
фирмы имеют обыкновение дарить журналистам более-менее
ценные подарки. Естественно, что
очень многие сотрудницы многих PR-агентств начали считать эти
подарки своей собственностью и
поэтому стараться ограничить
круг аккредитованных журналистов, чтобы присвоить немалую
часть подарков, а затем продать.
Более того: мы лично знаем ряд PR-овок, которые очень постарались перепрыгнуть из своих агентств на должности пресс-секретарей крупных фирм,
чтобы уже самим распоряжаться подарочными фондами. Понятно, что в таких условиях о качественном информировании общества о деятельности фирм говорить не
приходится и эти фирмы терпят экономический ущерб. Виртуальный же пресс-секретарь, общаясь с журналистами на предмет
их аккредитации, будет синхронно сверяться
с соответствующими досье на них, чтобы
объективно оценить последующий эффект
от публикации того или иного журналиста в
том или ином СМИ.
Запись 50 часов непрерывной речи по
текстам преимущественно из столичных
газет была совершенно правильным поступком, учитывая офисную направленность разработки, поскольку нынешняя
деловая элита изъясняется именно на лексиконе этих газеток. Но если руководствоваться прогнозной цифрой «5 лет», то через
5 лет большинство этих «деловых» будут
вытеснены из бизнеса и власти интеллектуалами, говорящими на классическом
русском языке. А носителем этого языка
были и останутся аудиовизуальные архивы.
Процитируем несколько строк из уникальной брошюры Гостелерадиофонда,
изданной в 2001 г. по материалам состоявшейся в нем научно-практической конференции и касающихся хранящихся там материалов:
«На государственном хранении находится всего:
• названий киновидеоматериалов — 219202
(это почти 400 тыс. единиц хранения);
• названий звукозаписей — 390798 (свыше 1 млн единиц хранения)...
390 тысяч наименований оригинальных
записей — сколько это звучит примерно?
Получилось ни больше не меньше 46
тысяч часов «моторного времени» (как у
нас принято говорить), чистого звучания.
Если все это воспроизвести в эфире без
перерывов и пауз, то радиослушателям понадобилось бы провести у динамиков пять
с половиной лет».
То есть, если бы создатели речевых корпусов русского языка воспользовались материалами Гостелерадиофонда, а также других российских аудиовизуальных архивов, то у них в распоряжении были бы
не 50, а сотни тысяч часов звучания исчерпывающе полного русского языка в исполнении многих тысяч разнообразных и прекрасно поставленных голосов, на темы из
всех областей жизни. Тем более, наши
архивы ведут работу по переводу своих материалов в цифровую форму: в частности,
Гостелерадиофонд начал плановый перевод
своих звуковых фондов на носители CD-ROM в виде компьютерных файлов. Что касается оцифровки киноматериалов (со звуковым сопровождением, естественно), то
здесь ситуация с проблемой выбора носителя становится все более благоприятной
в силу того, что с каждым годом становилось все легче подтвердить (либо опровергнуть) гарантированные фирмами-изготовителями сроки хранения фондовых видеоматериалов на тех или иных носителях.
Проблема оцифровки киноматериалов
сегодня скорее не техническая, а концептуальная: чтобы киноматериалы впоследствии
как можно чаще востребовались (то есть,
приносили деньги), их необходимо проиндексировать по разнообразным критериям
востребованности. Вряд ли обыватель будет
в массовом порядке заказывать архивные
фильмы — чтобы убедиться в этом, достаточно поговорить с продавцами видеокассет.
Но, с другой стороны, в ряде случаев подборки из давнишних художественных фильмов, подобранных по соответствующим тематикам, служат в качестве учебных пособий
для спецслужб, пожарных, спасателей и т. д.
А теперь вот оказалось, что появился новый,
экономически оправданный критерий индексации: специализированные речевые
корпуса, которые сейчас на Западе (да и в
Китае, и в Восточной Европе) создаются
центрами накопления речевых ресурсов по
всякому поводу — от социологических телефонных опросов среди этнических групп до
психиатрических обследований.
Если проиндексировать русскоязычный
кинофонд но критерию «секретариат», то,
фактически, получится подборка учебных
видеоматериалов для менеджеров предприятий на тему: «Как развивались бы взаимоотношения клиента с фирмой, если бы
служба reception повела себя с ним не так,
а иначе» (иллюстрацией к чему служат
кадры из фильма «Пятый элемент — рис.
6). Служба рисепшн — это интерфейс между посетителями и предприятием, поэтому она должна быть предельно корректной
и блюсти правило: «ничего личного».
Именно это требование и лежит сегодня в
основе замены живых секретарш на их
анимационных дублерш — но в то же время
стоит и задача, чтобы компьютерные персонажи сохранили все обаяние, профессиональные навыки и, конечно, лучшее из
речевых особенностей живых секретарш,
эталоном которых служат, прежде всего,
образы, созданные эпизодическими ролями актрис мирового кинематографа.
Рис. 6. Сюжет фильма «Пятый элемент» развивался бы иначе, если бы регистрацией пассажиров занималась не живая, а компьютерная
служащая: распознав космических гангстеров,
она испугалась лишь на мгновение, но этого
оказалось достаточно, чтобы те насторожились
Вероятно все же, что если аудиовизуальные архивы включатся в процесс развития
технологий распознавания русской речи,
они не ограничатся ролью «сырьевой базы»
для корпораций, создающих системы распознавания речи на базе уникального фондового словесного ресурса. Юридически
архивы (и музеи) имеют основания участвовать в этой нарождающейся индустрии
как равноправные партнеры. И, вероятно,
музейные и архивные работники это понимают, коль скоро пригласили к участию
в своей специализированной конференции «EVA 2001 Москва» специалистов
Центра Речевых технологий, представивших там систему «Труффальдино», предназначенную для управления бытовой и
офисной техникой с помощью голосовых
команд, запускать на ПК любое приложение Windows по речевой команде, а также
управлять телефонным справочником
(при произнесении имени требуемого
абонента происходит автонабор номера
телефона) — то есть, это хотя и простейший, но уже действующий виртуальный
офис-менеджер. «Труффальдино» распознает десятки различных речевых команд,
активизируясь после произнесения ключевого слова, защищающего систему от
ложных срабатываний; работает в режиме
распознавания для любого языка, настраивается на любой новый голос, владеет
функцией речевого ответа для подтверждения принятой команды.
По существу, у наших аудиовизуальных
архивов и музеев нет сегодня более заманчивой перспективы, чем поправить свои
финансовые дела, участвуя в грандиозном
проекте по созданию систем распознавания русской речи. Да, в течение минувшего десятилетия им предлагались какие-то
коммерческие проекты, какие-то спонсоры выделяли им средства, ушедшие, преимущественно, на разукрашивание бесчисленных сайтов и сидиромов, но где от
этого практический результат? Привлекло
ли это средства на техническое переоснащение и оплату труда специалистов?
Приведем пример с данной конференции: Государственный Литературный музей, который при рациональном подходе
способен стать базовым предприятием в
деле вовлечения ресурсов литературного
языка в проект производства систем распознавания русской речи. В ГЛМ, располагающем коллекцией звукозаписей голосов
русских писателей XX века, в конце 80-х начал формироваться фонд видеозаписей.
Первоначально этот фонд состоял из записей с эфира, приобретенных видеоизданий,
а также записей (по преимуществу —
бытовых), подаренных музею. С получением в 1991 г. видеокамеры (также бытовой)
сотрудники отдела звукозаписи начали проводить самостоятельные видеосъемки литературных вечеров, встреч, интервью и т. д.
На момент конференции видеофонд ГЛМ
насчитывал около 300 единиц хранения
кассет разных форматов (в основном,
бытовых). Техническая база, на которой
строится работа отдела, состоит из одной
видеокамеры VHS, одной частично работоспособной видеокамеры VHS-compact, двух
видеомагнитофонов VHS ( один — собственность ГЛМ, а другой одолжен одним
писателем) и телевизора с экраном 14".
В ГЛМ резонно полагают, что записи, сделанные непрофессионалами на непрофессиональной технике все равно имеют научную и культурно-историческую ценность —
учитывая, что снимать писателей приходится в обстановке еще более непростой,
чем та, в которой работал кинорежиссер Згуриди. Конечно, в последнее время немало
снимают и профессионалы, но телевизионщиков интересуют, в основном, презентации, вручение премий и т. п., а «чистое
время» континуального писательского слова
на телеэкране, за редким исключением, измеряется секундами. Есть и проблема монтажа на ТВ — оправданного, возможно, спецификой массовой коммуникации, но совершенно ортогонального семантике, задачам и традициям научной истории литературы и культуры, требующим спонтанности, непосредственности, раскованности,
«домашности» (даже на пленере) записи, обусловленных личностными и художественными «параметрами» снимаемого Писателя («говорящего автора»). Должны присутствовать временная непрерывность и
неограниченность записи, независимость от
сценария, эфирного времени или ОТК. Поэтому кажущийся «непрофессионализм»
музейных и архивных работников на самом
деле научно обоснован.
А теперь на этих примерах посмотрим, насколько диалектично понятие «секретариат». Название системы исполнения голосовых команд «Труффальдино» навеяно, скорее всего, блестящей ролью Константина
Райкина в одноименном фильме, где он, действительно, различал лишь самые примитивные команды (но не знал слова «пудинг» и многого другого). Его хозяевам-дворянам (то
есть, как бы писателям из коллекции ГЛМ)
приходилось напрягаться, чтобы втиснуться
в словарный запас и понятийный аппарат
своего слуги. Но история приводит пример,
когда такой же четкий, хотя и малообразованный исполнитель повысил уровень своих
услуг, создав образцовый исполнительный механизм под названием «Секретариат ЦК
ВКП(б)», исполнявший, в числе прочего, самые сокровенные желания писателей: Переделкино, СП, Литфонд и т. д. Для по-настоящему талантливых писателей не было в истории лучшего времени, чем сталинское, поэтому обнадеживает, что зарождающийся
виртуальный секретариат вбирает в себя
деловые качества того, образца 30-х.
Виртуальные служащие — ключ к теме
«автоматизация эфира»: компьютерная ТВ-ведущая Ananova это уже не говорящая
кукла, а элемент такой автоматизации. К
автоматизации эфира большинство наших
телевизионщиков относятся скептически, в
силу чего, хотя деньги в автоматизацию и
вкладываются, но не всегда рационально.
Дело здесь не столько в недопонимании технологий автоматизации, сколько в поверхностном понимании Постановления № 67 от
4 октября 2000 г. «Об утверждении квалификационных характеристик должностей служащих государственных предприятий телевизионных и радиовещательных компаний».
Министерство труда и социального развития Российской Федерации постановляет:
Утвердить квалификационные характеристики должностей служащих «Главный
диктор», «Главный редактор телевидения и
радиовещания», «Заведующий корреспондентским бюро (пунктом)», «Продюсер телевизионных и радиопрограмм», «Руководитель
главного секретариата телевизионной и
радиовещательной компании», «Шеф-редактор», «Режиссер монтажа», «Телеоператор-постановщик», «Художник компьютерной
графики», «Электромеханик телевидения
(радиовещания)» согласно Приложению».
Министр труда и социального развития
РФ А. Починок.
«Государственные» компании рассматриваются постольку, поскольку они крупные: в системах управления производством
значимость блоков, курирующих персонал, растет при укрупнении предприятия,
поскольку потребность в формировании
кадрового резерва возникает лишь при определенном масштабе деятельности, когда
кадровая политика интегрирована с управленческой, инвестиционной и финансовой политикой корпораций — то есть, информационная система управления персоналом являет собой часть единой информационной системы учреждения. Применительно к телевидению это означает, что
автоматизация эфира неотделима от автоматизации подбора кадров — что и отражено в назначенных Приложением должностных обязанностях и требованиях к
квалификации: для Главного диктора —
«стаж работы в должности диктора телевидения или радиовещания не менее 3 лет»;
для Руководителя главного секретариата —
«стаж работы по специальности не менее
5 лет». А по какой специальности? Это не
так существенно: все разнообразнейшие
требования и обязанности, изложенные в
многостраничном Приложении к Постановлению № 67, могут быть выполнены
благодаря известным на российском рынке системам управления персоналом:
— в SAP R/3 проработан механизм индивидуального планирования карьеры —
долговременное планирование назначений и перемещений конкретного сотрудника с определением тенденций развития
и указанием, какими навыками он должен
овладеть, чтобы занять следующую должность; модуль «менеджмент вознаграждений» оптимизирует распределение бюджета вознаграждений;
— Oracle HR MS имеет механизм самообслуживания, обеспечивает открытый и
расширяемый, но контролируемый доступ
всех сотрудников к данным: работник может не только корректировать данные о
себе, но и подавать заявки на обучение,
формулировать свои предпочтения на
работе, подавать заявление на вакантную
должность; позволяет в режиме реального
времени одобрить того или иного кандидата на должность всеми заинтересованными сторонами;
— HR-модуль системы «БОСС-кадровик» автоматизирует такие задачи управления персоналом, как отбор и расстановка кадров, оценка персонала, повышение квалификации, планирование карьеры, мотивация; стандартным документальным основанием для профиля должности является должностная инструкция; этот профиль сравнивается системой с
профилем конкретного претендента или
сотрудника: в случае, если показатели
работника ниже, ему рекомендуется пройти обучение, если выше, он включается в
кадровый резерв.
Сразу пример того, как при помощи
таких систем выполнить Постановление №
67: диктор подаст заявление, чтобы стать
Главным диктором, а система рассмотрит.
Тогда зачем делать компьютерных дикторов
типа Анановы, ставшей прототипом компьютерных офис-менеджеров («ТКТ» № 9 за
2001 г.), чье коренное отличие от компьютерных ТВ-ведущих заключается (если речь
не об интерактивном ТВ) в оснащенности
машинным зрением? Все просто: ТВ-дикторы, синтезированные компьютерной
графикой, создаются по профилю т. н.
«экспертных систем», которые сегодня возникают во всех отраслях и, кстати, особенного успеха достигли в медицине: сфере,
родственной робототехнике. Так, компьютерная ведущая, проводя телемост, («ТКТ»
№ 10 за 2000 г.) решает в тот момент типичные задачи экспертной системы:
— человеко-машинное взаимодействие;
— совершенствование объектно-ориентированной системы программирования для
обработки знаний;
— иерархическое построение знаний;
— планирование и проверка гипотез;
— конструирование ответа на запрос;
— сочетание интерактивной доски объявлений и средств интерпретации знаний;
— самообучение на базе извлечения, анализа и оптимизации множества правил;
— реализация процесса логических рассуждений при наличии неопределенности в
доступной информации;
— альтернативная возможность использования накопленных знаний путем обращения к прецедентам (шаблонам готовых
решений);
— функционирование гибридной системы, сочетающей в одной оболочке несколько математических подходов к решению проблемы.
Таким образом, сегодня корректнее
говорить уже не об «автоматизации», а о
«роботизации» эфира — что и подтверждает странный, на первый взгляд, перечень
профессий в Постановлении № 67, регулирующем деятельность лишь «внутренних» служащих. Как исключение, Главный
диктор ведет «наиболее сложные и ответственные программы». Остальное ведут
простые дикторы — своего рода служащие-интерфейсы между корпорацией и внешним миром и потому их нельзя описать в
кодах закрытой внутрикорпоративной системы, какими являются системы управления персоналом. Если задействовать
словарное определение понятия «робот»
— «термин, которым часто обозначают
машины с антропоморфным (человекоподобным) действием» — то синтаксис
Постановления № 67 с Приложением
можно понять и так, что просто диктор (не Главный) легкозаменяем роботом. А в Руководители главного секретариата уж точно запросится робот (и в рамках должности будет координировать «работу по созданию и пополнению банка данных по
различным направлениям деятельности
компании»), если окажется, что живой
человек с таким количеством обязанностей не справится. Прежние коды служащих-интерфейсов не годятся, поскольку
строились по типу «цепная собака», и
придерживающийся их ведуший-reception (между зрителем как клиентом и хозяином телекомпании), усердствуя, выглядит на экране именно как цербер (совпадение: телепередача с компьютерными
дублями известных российских ТВ-ведущих названа «Телетузики»). Это следствие
низкого социального статуса: он у секретарш и других reception почти как у
домашних животных (и на этом основании их лишают трудовых прав — что доказано прошлогодними перетасовками на
ТВ-6). Как результат — кризис доверия к
телевидению, вызвавший нужду в экранных человекоподобных роботах, к которым у зрителя доверия больше: зритель
читал о законах робототехники, запрещавших роботу лгать человеку.
В 30-х годах советский поэт Семен Кирсанов написал «Поэму о Роботе», где домохозяек сводил с ума «каучук нелукавящих губ»
робота (а леди Чатерлей ради него даже забыла о своем леснике).
Знаменитые «Три закона робототехники», разработанные писателем Айзеком
Азимовым для человекоподобных роботов
(именно к этому артикулу инвентаря относятся виртуальные люди) не носят, как и
положено формирующим прогресс законам (типа интеловского Закона Мура),
юридической силы, но на них равнялись
позднее авторы таких терминов виртуального мира, как «культурный протез» и «телекоммуникационный резонанс». Кодекс
информационной безопасности соблюсти
может только робот — человеку, как доказано со времен Римского права, это не под
силу. Отсюда понятно, почему на базе телеведущей создаются офис-менеджеры: их
объединяют «Три закона Азимова»: не
вредить человеку злоупотреблением его
персональными данными, а приносить
пользу — для чего о посетителе надо знать,
каких внешности и манер его должен
встретить секретарь (рис.7).
Рис. 7. Инспектору из правоохранительных
органов встретивший его офис-менеджер должен напомнить подругу юности — но в исполнении не менее убедительном, чем у Софико
Чиаурели (т/ф «Ищите женщину»)
Рис. 8. Леонид Филатов в фильме «Город Зеро»
сыграл роль той функции MPEG-4, которая
может закодировать и передать раздельно
различные части сцены: с униформой и без —
по усмотрению пользователя
Задача посетителя — лишь предъявить в
бюро пропусков документ, а дальше по всем
ступеням делопроизводства его сопроводит
виртуальный секретариат. Робот, чтобы, согласно законам робототехники, не причинить человеку вреда должен знать о нем все
— и это становится основанием разрешить
фирме, обладающей таким роботом, собирать сведения о тех, с кем сотрудничает. Человекоподобным же ему надо быть потому,
что единственная коммуникационно-информационная система, результативно
работающая — личные человеческие отношения. Например, Ленина с Горьким познакомила актриса Мария Андреева, позже назначенная комиссаром петроградских
театров, а затем — директором столичного
Дома ученых. Это еще раз подчеркивает
значение актеров для антропоморфной
робототехники: самым важным для киноактрис станет кастинг на роль секретарши
(рис. 8), чей образ начнет тиражироваться
в многомиллиардной индустрии (ядром которой может стать к/с «Союзмультфильм»:
раз российские ТВ-каналы не спешат финансировать отечественные мультсериалы,
аниматоры могут заработать тем, что заменят часть телевизионщиков своей продукцией) виртуальных офис-менеджеров. Первичное юридическое основание здесь —
«творческая монополия» (термин из обязательственного права), а подробнее в следующих
AVR.
А. П. Барсуков, журнал "ТКТ", № 2, 2002 г. (через эту ссылку можно
бесплатно скачать справочник)
Система распознавания русской дикторонезависимой речи (Cognitive Technologies).
Данная система включена в обзор в развитие темы, затронутой в "ТКТ" № 1 за 1997
г. — о компонентах устройств автоматизированного перевода речи. Новизна подхода
компании к решению задач речевого управления, распознавания речи и идентификации
диктора состоит в создании методов анализа речи, сочетающих в себе традиционные
непрерывные статистические схемы распознавания и классификации с содержательными
оценками, базирующимися на знании тонкой структуры речевых объектов. Основу
способов, которые компания использует для построения элементов речевых
технологий, составляют:
• устойчивый алгоритм выделения основного тона диктора;
• гладкое спектральное представление сигнала;
• методы выделения формант;
• сегментация волны на фрагменты, содержащие заведомо целое число фонем;
• механизм форматного оценивания;
• методы акустически зависимого структурирования фонетических словарей;
• акустико-фонетическое преобразование;
• детекторы артикулярных событий и состояний в речевом сигнале;
• локальный и глобальный грамматический анализ;
• островной грамматический анализ.
К моменту выставки Comtek'97 комплекс речевых технологий компании включал
дикторонезависимую систему распознавания речи ограниченного — до 500 слов —
словаря (может использоваться для речевого управления прикладными системами) и
систему синтеза речи по тексту. Кроме того, поэтапно, на период 1997-1999 гг.,
намечено закончить разработку следующих продуктов:
• дикторонезависимые подсистемы речевого управления пользовательскими системами
на естественном языке в условиях шума;
• системы идентификации диктора по произнесенным ключевым фразам (речевые
парольные замки);
• дикторонезависимые системы диктовки с большим словарем для дискретной речи (с
паузами между словами) с постепенным переходом к квазинепрерывной речи;
• дикторонезависимая система распознавания слитной речи.
SIS — интерактивная система обработки речевого сигнала (Центр речевых
технологий). Программно-аппаратный комплекс, позволяющий осуществить ввод
речевого сигнала в память компьютера с последующим воспроизведением сигнала, его
ручной и автоматической обработкой, сохранением, визуализацией, анализом,
редактированием, шумоочисткой, фильтрацией, сравнением, верификацией, точным
установлением текста зашумленных звукозаписей, транскрайбированием и т.д. Работа
с окнами позволяет связывать изображения сигналов различной длительности, типа,
размерности и частоты дискретизации. Есть возможность представления
слаборазличимых сигналов в спектральной, кепстральной и других областях в виде
квазитрехмерного изображения с отчетливыми характеристиками в измерениях: время/частота
или период/уровень (интенсивность). Также есть несколько типов представлений
третьей размерности для трехмерных картинок "Видимая речь" (первая — время,
вторая — частота или период, третья — уровень): цвет, оттенки серого, плотность
заполнения точками, отклонение вправо или вверх от нулевого уровня,
аксонометрическая проекция с произвольным наклоном осей. Возможен интерактивный
дизайн для изменения следующих характеристик изображений в трех измерениях:
уровни соответствия цветов палитры, амплитуда, тип изображения, тип шкалы (линейная,
логарифмическая, барки), контраст и т.д. В операции по обработке сигнала и
функции подавления шума входят:
• операции с константами;
• линейные преобразования;
• нормализация;
• клиппирование;
• обнуление пауз;
• произвольное мю-преобразование (в реальном времени в момент прослушивания);
• изменение скорости воспроизведения речи без изменения основного тона (с
сохранением естественности и индивидуальности голоса);
• копирование, добавление, смешение, удаление;
• произвольная линейная ПК-фильтрация (низкие частоты, высокие частоты,
полосовой фильтр);
• 512-полосный графический эквалайзер, управляемый манипулятором "мышь";
• линейная адаптивная моно- и стереофильтрация Уидроу;
• удаление импульсных помех;
• динамическая фильтрация;
• подавление белого шума методом спектрального вычитания;
• автоматическая обработка и спектральная фильтрация;
• удаление стационарных шумов;
• прослушивание в режиме "псевдостерео" и т.д.
В операции анализа сигнала входят: цифровой осциллограф реального времени;
измерение мгновенной и средней мощностей спектра и кепстра, спектра линейного
предсказания, автокорреляции параметров линейного предсказания, формант, энергии,
частоты пересечения нуля, стационарного спектра и другие виды анализа. В анализ
основного тона (ОТ) входят: 6 различных методов вычисления ОТ, метод проверки
правильности вычисления ОТ, подробные кривые частоты ОТ. В статистику входят:
гистограмма и 28 статистических показателей кривых ОТ — максимальные,
минимальные, средние и медианные значения, моменты, факторы подъема,
стабильности и понижения, 8 факторов джиттера и тремора и т.д.
А. Барсуков, журнал "ТКТ" №
10,
1997 г. (через эту ссылку можно бесплатно скачать справочник,
авторские материалы которого разрешено использовать для написания таких работ,
как эссе, сочинение, доклад, реферат, курсовая работа, дипломная работа,
бакалаврская / магистерская работа, диссертация)
Тема электронной речи и электронного слуха на VI конференции «Цифровая
обработка сигналов и её применение» (по материалам РНТОРЭС им. А. С.
Попова)
Использование принципов работы периферических отделов слуховой системы для
построения анализатора с высоким частотно-временным разрешением (доклад
Института проблем управления РАН). При необходимости осуществления оценки
состояния объектов, излучающих нестационарные сигналы, возникает задача анализа
этих сигналов с высокой разрешающей способностью как в частотной, так и во
временной областях. Для достижения высокого частотно-временного разрешения
применяют методы, основанные на кратковременном преобразовании Фурье, а также
методы, основанные на вейвлет-анализе. Поскольку при распознавании речевых
сигналов слуховой анализатор успешно решает задачу частотно-временного анализа,
представляет интерес использовать принципы его организации при построении
технических систем. Как известно, основной особенностью слухового анализатора
является большее, чем на порядок различие разрешающих способностей по частоте
при одновременном и последовательном предъявлении частотных посылок,
характеризуемых, соответственно, критической полосой и дифференциальным порогом.
В работе выдвинуто предположение, что необходимое соотношение между критической
полосой и дифференциальным порогом может быть реализовано за счет использования
гребёнки низкодобротных (широкополосных) сильно перекрывающихся полосовых
фильтров и последующей обработки распределения отклика этих фильтров с помощью
нейронной сети с латеральными тормозными связями. Задача нейронной сети состоит
в подчеркивании (обострении) максимумов распределения фронта откликов фильтров
путём нахождения разности возбуждающего и тормозного фронтов, возникающих на
выходе нейронной сети.
Работоспособность модели была проверена на аппаратно-программном комплексе,
реализованном в виде гребёнки из 100 полосовых фильтров с добротностью, равной
5-7 и резонансными частотами, расположенными по шкале Барков в диапазоне
300-3000Г. После детектирования и сглаживания распределение откликов фильтров
обрабатывалось нейронной сетью, реализованной программно на ЭВМ.
А. Барсуков, журнал
"ТКТ", № 7, 2004 г. (через эту ссылку можно бесплатно скачать
справочник)
Тема электронного слуха на VI Международной конференции «Цифровая
обработка сигналов и её применение» (по материалам РНТОРЭС им. А. С.
Попова)
▪ Структурно-параметрический синтез нейронных сетей в системах биометрической
идентификации личности (БИЛ) по голосу (Южно-Уральский государственный
университет). В системах БИЛ по особенностям голоса важным является выбор
методов обработки информации, в частности, выбор метода преобразования волновой
структуры речевого сигнала в необходимый тип параметрического представления.
Известно несколько методов параметрического представления речевого сигнала один
из которых – MFCC (Mel-Frequency Cepstrum Coefficients). В работе исследованы
два метода преобразования речи:
- на основе скрытых марковских моделей;
- с использованием нейросетевых технологий.
Первый позволяет эффективно моделировать статистические изменения спектральных
характеристик, что обеспечивает достижение в системах БИЛ высокой точности
распознавания. Нейронные же сети в системах БИЛ по голосу используются для
обработки разнообразной информации. Поскольку нейроны – это, в общем случае,
нелинейные элементы. Следовательно, нейронные сети являются нелинейными
системами, пригодными для решения задач нелинейной идентификации, принципиально
связанных с наличием нелинейных характеристик. При этом основным достоинством
обученной искусственной нейронной сети является обобщение, что позволяет
обеспечивать возможность восстановления пропущенных данных и прогнозировать их
характеристики. В биометрической идентификации речевой сигнал представляется
вектором в определённом параметрическом пространстве, который заносится по
заданному алгоритму в нейросеть. Ответственной задачей является выбор алгоритма,
позволяющего производить в нейросети параллельную обработку информации, что, в
конечном итоге, позволит решить вопрос о скорости распознавания. На основе
нейронных сетей организуется иерархическая многоуровневая система распознавания
речи с возможностью раздельного анализа.
В системе БИЛ по голосу с использованием нейронных сетей важным достоинством
является автоматическая настройка уровня качества идентификации конкретной
личности и возможность прогнозирования этого уровня. Однако, при этом необходимо
также осуществлять автоматический синтез самих нейронных сетей (количество
нейронов, виды активационных функций и весовые коэффициенты), который эффективно
можно осуществить с помощью методов структурно-параметрической технологии
проектирования искусственных систем различного назначения. Эти методы позволяют
обеспечить направленный выбор оптимального варианта конфигурации и параметров
нейронной сети.
▪ Детектор речи на основе фильтрации спектра модуляции речевого сигнала
(Белорусский государственный университет информатики и радиоэлектроники). В
большинстве случаев речевой сигнал, поступающий на вход детектора речи (VAD –
voice activity detector), должен быть высокого качества. Однако, системы
мультимедиа часто используются в изменяющейся акустической обстановке, что может
приводить к изменению характеристик работы VAD алгоритма. Предлагается детектор
речи на основе свойств модуляционного спектра речевого сигнала, позволяющий
эффективно распознавать наличие речи при неблагоприятных акустических условиях.
Для детектирования речи использован биологически мотивированный метод со схемой,
схожей со строением человеческого уха с использованием свойств речи в
модуляционной области. Функционирование ушной улитки может быть описано на
электрическом уровне как работа банка фильтров с высокой степенью перекрытия
полос. Свойства речи в модуляционной области могут быть продемонстрированы на
примере коэффициента модуляции MI (modulation index) – меры распределения
энергии в области частот модуляции. Другими словами, это нормализованная энергия
преобладающих частот модуляции речи в данной полосе частот. Как показано разными
исследователями, коэффициент модуляции шума отличается от коэффициента модуляции
чистой речи. Основная часть энергии (более 95%) речевого сигнала
сконцентрирована в диапазоне от 1 до 16 Гц с пиком около 3-5 Гц. Это
соответствует количеству слогов, произносимых человеком за секунду. Таким
образом, модуляционные компоненты, изменяющиеся с частотами, не входящими в
данный диапазон, могут быть удалены с помощью фильтрации спектра модуляции.
О схеме метода детектирования речи на основе фильтрации модуляционного спектра
речевого сигнала. Исходный речевой сигнал разбивается на М частотных полос
банком ДПФ модулированных полифазных фильтров. В каждой частотной полосе
вычисляется огибающая сигнала, которые затем суммируются. Операция суммирования
обусловлена уменьшением вычислительной сложности VAD алгоритма. Суммарная
огибающая амплитуды сигнала фильтруется пoлосовым модуляционным фильтром (БИХ-фильтр)
1-16 Гц. Процедура фильтрации позволяет уменьшить энергию шумов, выделив тем
самым речевые компоненты.
После этого производится вычисление энергии отфильтрованной огибающей. Принятие
решения «речь/шум» происходит на основании сравнения классификационного
параметра и вычисляемого на основе статистики порога. Среднее значение и
стандартное отклонение рассчитываются с помощью экспоненциального усреднения в
паузах между речью. В качестве классификационного параметра используется энергия
Е отфильтрованной огибающей.
Для проведения эксперимента применялись 6 речевых сигналов, частота
дискретизации 8 кГц. Для каждого эталонного сигнала было получено по четыре
зашумлённых сигнала с параметром SNR 10, 5, 0 и –5 Дб. в качестве шумового
сигнала были использованы белый и «цветные» шумы. Характеристика работы
детектора оценивалась по следующим объективным параметрам: Р(А) – вероятность
правильного детектирования речи, Р(В) – вероятность корректности решения
«речь/пауза».
Для сравнения с предложенным детектором были использованы следующие детекторы
речи: основанный на оценке энергии сигнала, спектральный, стандартный
капстральный, дифференциальный капстральный. В качестве эталонного решения
«речь/пауза» использовались результаты, полученные тестируемым методом на чистом
речевом сигнале. В итоге, для предложенного детектора вероятность правильного
определения «речь/пауза» в зашумлённом сигнале оказалась выше по сравнению с
другими методами. То есть, предложенный метод имеет меньшую, по сравнению с
другими, ошибку детектирования речи при неблагоприятных акустических условиях.
А. Барсуков, журнал
"ТКТ", № 9, 2004 г. (через эту ссылку можно бесплатно скачать
справочник)
Тема электронного слуха на VI Международной конференции «Цифровая обработка
сигналов и её применение» (по материалам РНТОРЭС им. А. С. Попова).
Явления основного тона (Авиационный научно-технический комплекс «Антонов»).
В современных устройствах цифровых звукотехнических систем требуются
акустические кодеры, обеспечивающие кодирование звукового сигнала с минимальным
информационным объёмом без потери качества. Первоначально этого можно достичь
при параметрическом кодировании звукового сигнала. Опыт показывает, что для
успешного лечения этой проблемы, а также для создания многоязычных
«естественных» речевых интерфейсов, не требующих специальной подготовки
пользователей, настройки оборудования при их смене и работающих в реальной
акустической среде, необходимо определение слуховых параметров звукового сигнала
- то есть, физических параметров звукового сигнала, кодируемых слуховой
системой. В докладе рассмотрены результаты психоакустических экспериментов по
восприятию характерных представителей сложных звуков, давшие в литературе
названия таким явлениям, как унисон и явление остатка.
С физической точки зрения, при унисоне еще до улитки происходит сложение чистых
тонов в пределах периода основного тона, что приводит к образованию сложного
тона, который интегрально характеризуется своим временным профилем. С
психологической точки зрения звуки унисона воспринимаются слитно.
Так как одинаковые звуки различных октав при одновременном звучании
воспринимаются слитно, то с целью исследования восприятия звуков унисона, при
раздельном их бинауральном предъявлении, были проведены психоакустические
эксперименты с использованием метода дихотической стимуляции. Этот метод
позволяет раздельно варьировать сигналы в двух головных телефонах, вводя
межушную разницу стимуляции по интенсивности, частоте, фазе и их комбинациям.
Уровень
сигнала чистого тона при слуховом унисоне:
То – период основного тона
t – временная координата тона высшей октавы
Т – период чистого тона
А – уровень тона высшей октавы
Результаты эксперимента показали, что подача
на одно ухо сигнала сложного тона, состоящего из двух одинаковых звуков
различных октав, а на второе – сигнала чистого тона с частотой звука высшей
октавы в сложном тоне и уровнем, указанным на рисунке, вызывает ощущения
слуховых образов «отфильтрованного» звука низшей октавы в ухе, на которое
подаётся сложный тон, и слухового унисона звука высшей октавы в созвучии с
чистым тоном в виде слитного звукового образа, латерализованного внутри головы в
верхней центральной её части. Таким образом, слуховой унисон в приведённом
случае – это латерализация двух одинаковых звуков высшей октавы. На основании
этого можно утверждать, что слуховыми параметрами тона высшей октавы в
приведённом сложном тоне является временная координата пика и его уровень во
временном профиле периода основного тона (см. рис.).
Синтетический слуховой образ, вызываемый одновременным звучанием верхних частот
и имеющий высоту, равную высоте основной частоты, Схоутен назвал остатком.
Предположение Схоутена и Ликляйдера о том, что физическим признаком
резидуального тона является период временной огибающей сложного звука, а также
опровержение Де Буром этой гипотезы было проверено в психоакустических
экспериментах с использованием слухового унисона (т. е. восприятия звуков
унисона при раздельном их предъявлении с помощью двух головных телефонов).
Эксперименты показали, что восприятие основного тона, частота которого
отсутствует в физическом стимуле, происходит при условии, что ряд частот в
физическом стимуле являются арифметической прогрессией, разность которой равна
наибольшему общему делителю её членов. При таком условии высота остатка равна
высоте основного тона, период которого равен интервалу между главными пиками во
временном профиле сложного звука. Восприятие резидуального тона при
прослушивании такого сложного звука в докладе предложено назвать «явлением
основного тона» (ЯОТ).
Показательно ЯОТ демонстрируется благодаря феномену латерализации, например, в
слуховом унисоне стереосигнала сложного тона (360 + 450 + 540) Гц в одном канале
и его основного тона 90 Гц в другом канале с уровнем 30% от уровня сигнала
сложного тона. ЯОТ, наряду с другими, подтверждает предположение о том, что
слуховая система отслеживает временную периодичность звукового сигнала,
использует этот параметр для кодирования и формирования его высоты. Это явление
однозначно определяет слуховой параметр высоты основного тона, период которого
является интервалом кодирования слуховых параметров звукового сигнала.
А. Барсуков, журнал
"ТКТ", № 10, 2004 г. (через эту ссылку можно бесплатно скачать
справочник)
Технологии
Intel на Форуме IDF в Москве. Были представлены новейшие аудио- и
видеотехнологии для создания как мобильных роботов, так и стационарной
робототехники. В частности, для создания виртуальных референтов была предложена
технология, являющая собой сочетание распознавания русской речи,
русско-английского перевода и синтеза английской речи. Компьютер теперь способен
переводить речь с русского языка на английский и произносить перевод. Кроме
того, создан способ сочетания распознавания русской речи с личностью говорящего.
Система осуществляет распознавание произносимой фразы с идентификацией личности
говорящего после 1–2 минут обучения; на вход системы при этом поступают
произвольные фразы. Пока что система оперирует с ограниченным набором
предложений: несколько вопросов и последовательность числительных.
Существенный прогресс в создании виртуальных референтов становится возможен
благодаря технологии непрерывной обработки речевого сигнала CSP (ContinuousSpeech
Рrосеssing), разработанной и реализованной Intel для высокопроизводительных
систем распознавания речи (материал на эту тему подготовила фирма Comptek).
Важнейшее интеллектуальное свойство CSР — функция bаrge-in, которая даёт
возможность перебивать виртуального референта, не дожидаясь окончания
произнесения им приветствий и/или дежурной информации, что позволяет клиенту не
тратить время на прослушивание всего меню, а вступать в диалог сразу. Выделенная
референтом ключевая фраза этoro вступления клиента с речевым буфером (см. рис.)
отправляются на хост-процессор модуля распознавания, который распознаёт фразу и
даёт команду на исполнение.
Технология работы CSP исходит из того, что когда клиент произносит что-то,
входящий сигнал представляет собой смесь из голосового сигнала, эха от
воспроизведения и шума в линии (если речь идёт о применении технологии в
телефонных автоинформаторах). Для обработки такого сигнала требуется большая
вычислительная мощность. CSP берёт эти функции на себя, выполняя их на
DSP-процессорах плат Dialogic, и, таким образом, разгружая хост-процессор
компьютера. Проводя предварительную обработку сигнала, CSP отпpaвляет модулю
распознавания, выполняемому на хост-процессоре компьютера, «чистый» речевой
фрагмент, готовый к распознаванию. Это позволяет значительно повысить общую
производительность системы и увеличить размер распознаваемых словарей.
Фактически, CSP — это набор функций бортового программного обеспечения firmware
плат Intel Dialogic, отвечающих за обработку звукового сигнала. Функции CSP в
режиме реального времени определяют, что данный звуковой сигнал представляет
собой человеческую речь, производят предварительную его обработку и передают на
хост-процeccop компьютера в удобном для модуля распознавания виде. CSP firmware
обеспечивает выполнение DSP-процессором платы следующих функций: полнодуплексный
режим (позволяющий одновременно воспроизводить и записывать звук на каждом из
каналов), эхоподавление, определение начала звукового сигнала в линии, речевой
буфер (облегчающий проблему «рваной речи»).
Технология Intel ContinuousSpeech Рrосеssing поддерживается в действующем
продукте SpeechPearl, осуществляющем распознавание речи в телефонии и
базирующемся на русских фонемах. SpeechPearl обеспечивает дикторонезависимое
распознавание без необходимости настройки на голос, распознавание непрерывной
речи, поддержку 45 языков, включая русский (но при необходимости возможен и
дикторозависимый режим работы и режим настройки на голос). Словарь
распознаваемых слов — произвольный, составляется разработчиком приложения
самостоятельно. Максимальный размер возможного словаря в одном приложении — 1,5
млн распознаваемых слов.
То есть, SpeechPearl — это интегрированная среда разработки приложений с
распознаванием речи. В состав этой среды входит набор инструментов,
оптимизированных для создания, тестирования и настройки приложений распознавания
речи. Встроенный графический интерфейс способствует созданию, настройке и
тестированию грамматик и языковых ресурсов. После того, как разработчик
приложения создал диалоги и определил задачи распознавания, SpeechPearl
предоставляет соответствующий инструмент для создания и оптимизации грамматик и
языковых ресурсов. В состав основных компонентов SpeechPearl входит инструмент,
позволяющий проверить, покрывается ли слово, сказанное клиентом, соответствующей
грамматикой, а также инструмент, позволяющий создавать «тренируемые» языковые
модели.
А.
П. Барсуков, журнал "ТКТ", № 1, 2004 г. (через эту ссылку можно бесплатно скачать справочник)
| Прогноз от справочника "Кто ест кто в робототехнике" (перевод осуществлён компьютерной программой) | The forecast from the directory "Who is who in a robotics" (translation is carried out by the computer program) |
|
Появится суперкомпьютер, способный вырабатывать Lego-звуки. Пользователь сможет из "кирпичиков" синтезировать любой голос, высоту и тон голоса. Суперкомпьютер сможет пародировать и имитировать речь любого человека, осуществлять любое звукоподражание. |
The supercomputer, capable to develop Lego-sounds will appear. The user can synthesize any voice, height and tone of a voice from "bricks". The supercomputer can parody and simulate speech of any person, imitate any sound. |
Интерпретатор текста (Академия ФАПСИ) обеспечивает анализ массивов текстовой информации в следующих аспектах: классификация документов по смыслу (рубрицирование), выделение основных тем (масштабируемое реферирование), визуальный анализ количественных данных, входящих в текст. Входными текстами для системы являются русскоязычные текстовые файлы форматов rtf, txt. Тип текстов - повествование, описание. Стиль - публицистический. Тип предложений - простое, повествовательное, двухсоставное. Интерпретатор основан на: рекурсивной модели поддержки принятия решений; семантико-прагматической модели анализа текстов; продукционно-фреймовой модели представления знаний; технологии OLAP-текст, объединяющей методы компьютерной лингвистики с методами визуального анализа хранилищ данных.
Психолингвистическая экспертная система "ВААЛ" осуществляет анализ текста, оценку воздействия агитационных материалов, выступлений и рекламы на подсознание, составление текстов с заданными параметрами воздействия, генерацию новых слов (например, названий фирм и торговых марок) тонкую настройку текста на целевую аудиторию. Особенности системы: оценка неосознаваемого фонетического воздействия текстов и отдельных слов, генерирование слов с заданными фоносемантическими характеристиками, редактирование текстов до достижения указанных характеристик воздействия, корректировка текстов с использованием встроенного словаря синонимов, настройка на различные социальные и профессиональные группы людей, оценка уровня агрессивности текстов, оценка уровня архетипичности текстов, оценка сексуальных характеристик текстов, оценка психологической акцентуации автора текста, определение используемых в текстах метапрограмм, оценка звуко-цветовых характеристик текстов, оценка ритмических характеристик текстов, конструирование новых фоносемантических шкал и подключение их к системе, факторный анализ данных.
Автоматический морфологический анализатор древнерусского
языка: лингвистические и технологические решения (Баранов В. А.,
Ижевский государственный технический университет; Миронов А. Н., Лапин А. Н.,
Мельникова И. М., Соколова А. А., Корепанова Е. А., Удмуртский государственный
университет)
Как известно, разработка и создание средств автоматического морфологического
анализа текстов может основываться на различных базовых
принципах и на существенно различающемся лингвистическом материале – 1) на
накопленных в ходе ручного разбора прецедентах, 2) на алгоритмах и правилах
генерации морфологических форм, 3) на полном морфологическом (грамматическом)
словаре языка.
В случае построения информационной системы для грамматического разбора древнего
славянского текста в его оригинальном или близком к оригиналу виде дело
осложняется несколькими обстоятельствами:
− невозможностью сбора всех имеющихся в текстах словоформ и их вариантов в связи
с отсутствием в настоящее время достаточного количества электронных
полнотекстовых ресурсов, удовлетворяющих лингвистическим критериям набора
рукописей, и в связи с очень значительной вариативностью написаний;
− отсутствием морфологических (грамматических) словарей старославянского и
древнерусского языков;
− отсутствием полных электронных словников этих языков.
В то же время активная подготовка полнотекстовых электронных ресурсов на основе
древнейших и средневековых славянских письменных памятников требует скорейшего
создания автоматизированных систем морфологического анализа, так как без них ни
синтаксический, ни семантический машинный анализ таких текстов невозможен. В
связи с этим группой сотрудников нескольких учреждений России в настоящее время
осуществляется проект «Автоматический морфологический анализатор древнерусского
языка», который предусматривает разработку и создание автоматического
лемматизатора, в основе которого – полный морфологический (грамматический)
словарь древнерусского языка.
Конечной целью работы является создание инструмента для автоматической
лемматизации древнерусских текстов и для автоматического построения парадигм
лемм словаря и для обеспечения распределенной работы по наполнению и
редактированию словарей.
Анализатор должен осуществлять:
− автоматический анализ словоформ – нахождение их лемм,
− автоматический синтез словоформ на основе леммы,
− определение грамматических характеристик лемм и словоформ.
Основные задачи проекта:
− создание базы данных парадигм изменяемых частей речи;
− создание модуля ввода и редактирования слов и их парадигм;
− автоматическое устранение вариативности словоформ;
− создание веб-модулей лемматизации словоформ и фрагментов текста.
В настоящее время лемматизатор представляет собой модуль
информационно-аналитической системы «Манускрипт», состоящий из базы данных
лингвистических объектов, комплекса программ и веб-интерфейсов.
Словарная база данных представляет собой комплекс грамматических словарей,
единицы (элементы) которых связаны между собой. Основными словарями являются –
грамматический словарь древнерусского языка (ГСДЯ), грамматический словарь
современного русского языка (ГССРЯ) и грамматический словарь псевдоэлементов.
Программный комплекс предназначен для организации ввода, хранения и
редактирования грамматических словарей, выполнения запросов к словарям,
установления и поддержания связей текстовых словоформ с элементами словарей,
связей между объектами различных словарей и между элементами внутри словарей.
Веб-интерфейсы предназначены для удаленной и распределенной работы со словарями
и для ввода, редактирования, организации запросов и вывода результатов конечному
пользователю.
Словари состоят из следующих объектов:
− основа – элемент словаря, обладающий характеристиками слова как
лексико-семантической единицы;
− окончание – элемент словаря, обладающий характеристиками форм слова;
− псевдооснова – элемент псевдословаря, обладающий характеристиками слова;
− псевдоокончание – элемент псевдословаря, обладающий характеристиками форм
слова;
− тип изменения – единица словаря, обладающая характеристиками слова как
лексико-грамматической единицы, имеющая уникальный набор (псевдо)окончаний с их
морфологическими характеристиками и полностью описывающая часть словоформ
парадигмы, обладающих идентичным вариантом основы;
− варианты основы – основы, использующиеся для образования словоформ одного
слова. Варианты основы различаются чередующимися компонентами. Варианты основы
имеют направленную связь с корневой основой;
− парадигма – набор словоформ одного слова, строящихся из основы (вариантов
основы) и окончаний (вариантов окончаний);
− (под)парадигма – парадигма, корневая основа которой имеет направленную связь с
другой корневой основой и которая может быть использована для построения
парадигмы, имеющей в качестве заглавной другую основу.
Элементы словаря имеют или могут иметь соответствующие их лингвистическим
аналогам свойства и характеристики. Так, свойствами и значениями основ имени
существительного являются номер омонима, лексико-семантические и
лексико-грамматические характеристики, такие, как личное /неличное,
географическое, одушевленность, собирательность и некоторые другие, глагола и
прилагательного – только номер омонима. Свойствами окончаний имени
существительного являются число и падеж, прилагательного – род, число, падеж,
глагола – изменяемость, время, число, лицо, род (для форм причастий), падеж (для
форм причастий).
Классифицирующими грамматическими характеристиками частей речи обладает единица
тип изменения (ТИ). Так, характеристикой типов изменения имени существительного
является род, прилагательного – членность и разряд, глагола – наклонение, время
(для причастия в составе глагола), залог (для причастия), членность (для
причастия). Кроме того, каждый тип изменения обладает характеристикой части речи.
Типы изменения являются одним из ключевых объектов базы словарей, так как,
обладая классифицирующими грамматическими признаками, имея связь одновременно с
вариантами основы и входящими в тип изменения окончаниями, организуют парадигму.
Каждый ТИ состоит из набора окончаний с их грамматическими признаками и может
быть связан с группой основ. По матералам конференции
«EVA 2007 Москва»
SpeechPearl — интегрированная среда разработки
телефонных приложений с распознаванием речи. В состав входит набор
инструментов, оптимизированных для создания, тестирования и настройки приложений
распознавания речи. Встроенный графический интерфейс предоставляет дружественный
интерфейс для создания, настройки и тестирования грамматик и языковых ресурсов.
После того, как разработчик приложения создал диалоги и определил задачи
распознавания, SpeechPearl предоставляет соответствующий инструмент для создания
и оптимизации грамматик и языковых ресурсов.
Основные компоненты SpeechPearl: SpeechXpert — графическая среда для разработки, компиляции и оптимизации
грамматических и лексических блоков распознавания, проверки и редактирования
лексиконов и конфигурирования серверов SpeechPearl; Transcription Station — позволяет протоколировать диалоги из работающего
приложения в виде, удобном для оценки качества распознавания и подстройки
системы; SPEval (SpeechPearl Evaluation) — инструмент оценки качества работы
системы; позволяет проверить, покрывается ли слово, сказанное абонентом,
соответствующей грамматикой, устанавливать точки останова на разных уровнях в
соответствии с разными режимами оценок, находит оптимальные "уровни уверенности"
и измеряет производительность для различных наборов параметров распознавания; SPTrain — позволяет создавать "тренируемые" языковые модели, что повышает
производительность и ускоряет сам процесс распознавания; SpeechPath — контроллер распределенных ресурсов
Разработка крупных многорежимных систем с распознаванием речи требует
интеллектуального управления распределенной архитектурой речевых серверов. Это
необходимо для надежности, масштабируемости и эффективности использования
ресурсов. SpeechPath — это контроллер ресурсов. Это программный модуль,
выполненный в клиент"серверной TCP/IP архитектуре. Модуль может распределять
множество параллельных запросов различных типов, что позволяет осуществлять
прозрачную интеграцию различных ПО распознавания речи
CSP (Continuous Speech Processing) — технология непрерывной обработки речевого
сигнала, разработанная и реализованная Intel для высокопроизводительных систем
распознавания речи. CSP предоставляет разработчикам речевых приложений следующие
преимущества: Масштабируемость — делает возможным поэтапный переход от малых систем к
крупным; Емкость — позволяет строить системы с большим числом портов
Ключевым функциональным преимуществом, которое дает CSP, является barge-in —
возможность перебивать систему, произнося команды, не дожидаясь окончания
проигрывания приветствий и/или меню. Это позволяет абонентам, уже знакомым с
системой, не тратить время на прослушивание всех проигрываемых пунктов меню, а
произносить командынемедленно. Поэтому с такой системой значительно приятней
общаться, не говоря уже о том, что это экономит время звонящего и позволяет
системе обслужить большее количество абонентов.
Технология непрерывной обработки речи CSP
Обычно, когда абонент произносит что"то во время воспроизведения, входящий
сигнал представляет собой смесь из голосового сигнала, эха от воспроизведения и
шума в линии. Для обработки такого сигнала требуется большая вычислительная
мощность. CSP берет эти функции на себя, выполняя их на DSP-процессорах плат
Dialogic и таким образом разгружая хост"процессор компьютера. Проводя
предварительную обработку сигнала, CSP отправляет модулю распознавания,
выполняемому на хост"процессоре компьютера, "чистый" речевой фрагмент, готовый к
распознаванию. Это позволяет значительно повысить общую производительность
системы, увеличить размер распознаваемых словарей и существенно повысить емкость
решения.
CSP — это набор функций бортового программного обеспечения firmware плат
Intel Dialogic, отвечающих за обработку звукового сигнала. Функции CSP в режиме
реального времени определяют, что данный звуковой сигнал представляет собой
человеческую речь, производит предварительную его обработку и передает на хост-процессор
компьютера в "удобном" для модуля распознавания виде.
Такой подход позволяет существенным образом разгрузить хост-процессор компьютера.
Без использования CSP хост-процессор непрерывно получает данные от DSP-платы
Dialogic со всех ее телефонных портов, получая тем самым серьезную загрузку.
Кроме того, этот получаемый от DSP-сигнал никак не обработан, и хост-процессору
нужно самостоятельно обрабатывать его еще до того, как отдать на вход модулю
распознавания (например, определять, представляет ли этот сигнал человеческую
речь или посторонний звук). Все это дает лишнюю нагрузку на хост, ухудшает
производительность и качество распознавания, снижает возможную емкость системы и
заставляет устанавливать более мощные и дорогостоящие процессорные ресурсы.
Всего этого удается избежать при использовании плат с firmware CSP. CSP firmware
обеспечивает выполнение DSP-процессорам платы следующих функций:
Полнодуплексный режим работы — позволяет одновременно проигрывать и записывать
звук на каждом из каналов
Эхоподавление — до 16 ms
VAD — Voice Activity Detection определяет начало звукового сигнала в линии
Речевой буфер — существенно облегчает проблему "рваной речи" и повышает
качество распознавания
Сигнализация голосового события — работая совместно с VAD, позволяет CSP
firmware посылать сообщения хост"приложению
Voice_activated streaming/recording — отправляет поток голосовых данных на
хост только при определении голосовой энергии в канале
Система эхоподавления и VAD позволяют реализовывать функции barge-in, что
предоставляет возможность звонящему начинать говорить, не дожидаясь окончания
проигрывания приветствия или меню. Функция barge-in аппаратно прерывает
проигрывание, чтобы не мешать говорить абоненту. В то же время возможны сценарии,
когда система должна реагировать только на конкретное слово звонящего, поэтому
можно отключить автоматическое прерывание воспроизведения, чтобы оно не
прерывалось, пока не будет распознана конкретная команда абонента. По
материалам Comptec
"Голосовое управление для мобильных устройств" (ЗАО "Титан информационный сервис") - проект, победивший в номинации "Лучший инновационный проект" Конкурса Русских Инноваций. Это система распознавания голоса, независимая от диктора (не требует предварительной настройки на голос владельца). Разработчики утверждают, что средний уровень безошибочности средней коммерческой системы распознавания составляет 70%, немногим удалось достичь уровня 90%, а их система в тестах показала уровень 95%.
Система распознавания речи, разработанная компанией "Сакрамент" (г. Минск) не зависит от языка, имеет точность распознавания около 98%. Размер словаря виртуально не ограничен. Распознавание - в реальном времени с использованием активных словарей. Также разработана система идентификации голоса, предназначенная для автоматического сравнения неизвестного голоса с фонотекой известных голосов. Не зависит от языка, обеспечивает уровень ложного пропуска FAR=0,01, уровень ложной тревоги FRR=0,28%, уровень равных ошибок ложного пропуска и ложной тревоги EER=1,2%.
"Шепот" - автоматизированная система оценки защищенности выделенных помещений по виброакустическому каналу, разработанная фирмой "Маском". Система предназначена для полностью автоматического измерения акустических и виброакустических параметров ограждающих и инженерных конструкций выделенных помещений и расчета параметров защищенности в соответствии с действующими нормативно-методическими документами. Система может быть построена на базе прецизионных интегрирующих шумомеров фирмы Larson&Davis модели 812, 824 или Brul&Kjaer, дополненного оригинальными элементами и оборудованием, обеспечивающими проведение всего комплекса измерений в автоматическом режиме.
Для верификации голоса фирма SPIRIT Corp. разработала систему, которая, при среднем количестве парольных фраз, равном 2, удостоверяет голос с вероятностью принять чужого за своего равной 0,01%, а отвергнуть своего - 0,1%. Кроме того, разработан дикторонезависимый распознаватель речевых команд, работающий при ухудшении соотношения с/ш до 6 дБ и обеспечивающий надёжность 99%. Создан прототип и текстонезависимой системы, который, в отсутствие сильных помех (с/ш>20 дБ), с вероятностью до 99% идентифицирует по голосу человека в группе из 10-15 людей при условии, что перед этим был обучен данным человеком в результате произнесения им произвольной фразы продолжительностью до 60 с.
Записи радиопереговоров военных лётчиков в критические моменты рассматриваются в качестве речевых баз данных для анализа стрессовых характеристик человека, когда изменяются параметры формант, тона, пауз. Этот анализ должен помочь для идентификации состояния разбалансированности человека, возникающего, когда он вынужден говорить неправду.
Машинное распознавание речи примерно на 25% лучше человека распознаёт иноязычную для него речь, поскольку человек "тормозит" на поисках семантической связи между незнакомыми сочетаниями слогов и отдельных фонем.
Сканер-сонар высокого разрешения помог фирме Advanced Digital Communications обнаружить неподалёку от берегов Кубы объекты, похожие на объекты архитектуры. Впоследствии искусственный характер происхождения этих объектов был подтверждён видеосъёмкой подводного робота. Распознавание изображения и речи - теперь функция микросхемы фирмы STMicroelectronics, хранящей данные во флеш-памяти со скоростью их считывания 1,2 ГБайт/с.
Распознавание речи на Макинтош. Фирма MacSpeech Inc. выпустила новую версию iListen. iListen - это программа для распознавания речи, которая использует технологию "TalkAnywhere", позволяющую диктовать текст практически в любом приложении. Программа переводит речь в напечатанный текст. iListen настраивается под конкретного пользователя. Это значит, что вы должны потратить некоторое время, "обучая" iListen узнавать ваш голос. iListen работает в Mac OS 9 и Mac OS X. В версии 1.6.4 исправлено несколько ошибок. Кроме того, в нее добавлена возможность обращения к пунктам меню Mac OS X Services и поддержка иерархических меню в Script Editor.
Система "Речевой портал", созданная фирмой "Светец", обладает функцией распознавания речи, позволяющей реализовать сценарии услуг, приближенные к сценариям обслуживания с помощью оператора.
До 180 голосовых команд способна понимать киберсобака AIBO благодаря записанной на флеш-карте программе AIBO Mind.
Центр Речевых Технологий стал победителем в номинации "Лучшее техническое решение для ввода звука" на международной выставке-конференции Speech TEK 2003. В числе разработок ЦРТ - двухканальная встраиваемая плата (50 х 40 х 6 мм) шумоочистки речевых сигналов в каналах передачи звуковой информации. Плата имеет двухканальный аналоговый вход/выход, линейный вход, вход для динамических и электретных микрофонов (1,5 В), линейный выход, выход на головные телефоны; частота дискретизации - до 22050 Гц. Алгоритмы шумоочистки - адаптивная фильтрация широкополосных шумов (подавление широкополосных, гармонических и импульсных шумов и помех в одном или одновременно двух каналах) и стереофильтрация (подавление шумов и помех любого типа при наличии опорного канала). Кроме того, разработан набор аппаратных и программных средств для изменения параметров шумоочистки и установки новых алгоритмов обработки с помощью ПЭВМ.
Акустический микроскоп для визуализации с
высоким пространственным разрешением микроструктур в объёме исследуемого образца
и на его поверхности разработан в Институте биохимической физики им. Н. М.
Эмануэля. Прибор основан на растровом принципе получения изображений с помощью
фокусированного ультразвукового пучка. Посредством механического перемещения
акустического объектива таким пучком сканируют исследуемый объект и регистрируют
отраженные эхо-сигналы. По накопленным данным компьютер восстанавливает
изображение указанной оператором области объекта.
Речевой идентификатор разработан в Центре защищенных технологий. Система
осуществляет регистрацию аудиосигналов и телефонных сообщений с целью получения
индивидуальных "отпечатков голоса". Получение индивидуальных "отпечатков голоса"
(цифровых сонограмм) достигается путём использования технологии вейвлет-анализа.
Для обработки аудиозаписей используется пакет программ "Речевой микроскоп".
Речевой микроскоп разработан в МГТУ им. Н. Э. Баумана. В приборе используется математический аппарат вейвлет-анализа. Особенности прибора – повышенное разрешение при построении изображений «видимая речь» или сонограмм, а также адаптация под структуру сигнала «тон»-«шум»-«пауза» путём выбора «материнского» вейвлета.
Услуги по распознаванию и синтезу русской речи
предложила фирма Cayo communications. Программно-аппаратный комплекс выполняет
следующие операции:
- Распознавание русского языка (Automatic Speech Recognition - ASR).
- Автоматизированная обработка запросов со всех телефонов, включая
поддерживающие импульсный набор, наиболее естественным для человека образом
(например: ТЯ хочу заказать билет на самолёт из Москвы в Челябинск") Помимо
русского языка поддерживаются ещё более 30 языков, включая английский, немецкий,
французский, испанский и др.
- Русскоязычный синтез речи (Text-to-Speech - TTS ). Поддерживает все
SAPI5-совместимые модули синтеза речи (Elan, AT&T, Sakrament и другие).
Используется для озвучивания динамически меняющейся информации.
- Русскоязычный IVR.
- Приветствие и выбор услуги: автоматизированное приветствие и выбор вида
запроса (продажи, тех. поддержка, клиентская служба). Используется для выбора
наиболее квалифицированной группы агентов.
- Ожидание в очереди – исключаются "потерянные" вызовы: если все агенты заняты,
клиент удерживается на линии, прослушивая музыку, рекламную информацию,
прерываемую сообщениями о среднем времени ожидания.
- Обслуживание во внерабочие часы – клиентам сообщается соответствующая
информация и вызовы направляются на речевую почту (по желанию).
- Заранее предустановленные шаблоны – варианты организации речевого меню,
словари фраз для озвучивания времени, цифр, состояния счёта, прогноза погоды и
т.д.
- Контроль нагрузки – на случай непредвиденной пиковой нагрузки, одна или две
входящие линии резервируются для произнесения сообщения вида "Все входные линии
заняты. Пожалуйста, перезвоните позднее" – вежливый ответ всегда лучше сигнала
"занято".
Робот-переводчик с собачьего языка разработан фирмой Takara. Программа, записанная на карте памяти, работающей с сотовым телефоном, способна анализировать собачий лай на расстоянии до 40 м.
ТРАЛ - автоматизированный комплекс распознавания дикторов в телефонном
канале. Процедура идентификации заключается в автоматическом попарном
сравнении «дикторских карточек», в которых закодированы индивидуальные
характеристики голоса и речи говорящего. Основные характеристики: показатели
надежности при идентификации «дальнего» диктора:
91% при сравнении пары речевых сигналов длительностью не менее 96 с каждый;
85% при сравнении пары речевых сигналов длительностью 16 с и 96 с соответственно;
не менее 90% при сравнении пары речевых сигналов длительностью 16 с и 96 с,
передаваемых по одному и тому же каналу связи;
- время создания одной «дикторской карточки» - 3-4 с;
- время сравнения одной пары «дикторских карточек» (принятия решения о
принадлежности голоса и речи конкретному лицу) - не более 0.7 с (при
использовании ПК на базе Реntium III/1 ГГц);
- максимальное количество эталонов («дикторских карточек») для проведения
автоматического сравнения - 100000.
Требования к сигналу:
- формат сигнала - ИКМ 16 бит;
- частота дискретизации 8 000 или 11 025 Гц;
- полоса частот сигнала - не хуже 300-3400 Гц;
- соотношение сигнал/шум - не менее 10 дБ;
- продолжительность сигналов при попарном сравнении - не менее 16 и 96 с.
ТЕРРИТОРИЯ - автоматизированная система диагностики акцентов и диалектов
русской устной речи. Позволяет оперативно установить принадлежность
говорящего к той или иной акцентно-диалектной группе и указать географический
регион (регионы), где диктор получал начальное и школьное образование, или в
котором проживал длительное время. Краткая характеристика системы: описывает и
диагностирует 64 акцентно-диалектных зоны русского языка; 9 акцентов основных
мировых языков (английский, арабский, итальянский, испанский, китайский,
немецкий, французский, шведский, японский); 14 акцентов языков республик бывшего
СССР; 33 региональных диалекта русского языка Российской Федерации; 6
региональных диалектов русского языка на Украине; по 2 региональных диалекта
русского языка в Белоруссии, Литве и Грузии. Состав системы: мультимедийный
справочник по акцентам и диалектам русской устной речи; модуль заполнения «дикторской
карточки», содержащей набор установочных данных, список лингвистических
особенностей и ссылку на звуковой файл с записью речи неизвестного диктора;
модуль диагностики, производящий сравнение «дикторской карточки» с материалами
справочника и формирующий текстовый отчет о результатах диагностики;
специализированный сигнальный редактор; база данных эталонов звучания
особенностей речи для отдельных вариантов акцентов и диалектов русского языка,
содержащая около 9000 примеров (более 400 различных дикторов). Требования к
сигналу: формат сигнала - ИКМ 8 или 16 бит; частота дискретизации - 8000-22050
Гц; полоса частот сигнала - не хуже 300-3400 Гц; соотношение сигнал/шум - не
менее 15 дБ; продолжительность - не менее 200 с.При соблюдении данных требований
и описании сигнала не менее, чем 10 признаками, надежность диагностики
диалектной принадлежности диктора составляет не менее 75%.
ИКАР Лаб - Инструментальный комплекс криминалистического исследования
фонограмм речи. Области применения: идентификация дикторов по фонограммам
речи; шумоочистка и текстовая расшифровка низкокачественных фонограмм речи;
диагностика личности говорящего; установление подлинности фонограмм речи и
выявление следов монтажа; установление дословного содержания низкокачественных
фонограмм речи. Состав: программный пакет ввода, визуализации и анализа звуковых
сигналов Wawe Assistant Pro; программный комплекс шумоочистки и повышения
качества звуковых сигналов в реальном масштабе времени Sоund Сlеаnеr; программа
ввода и ускоренной текстовой расшифровки речевых сигналов "Транскрайбер";
внешнее устройство ввода/вывода звуковых сигналов SТС-Н216 или SТС-Н246 в
комплекте с головными телефонами.
В инфразвуковом диапазоне работать способен прибор «ШИ-01В». Это универсальный прибор (интегрирующий шумомер – анализатор спектра – виброметр) I класса точности для измерения параметров шума, инфразвука и вибрации. Соответственно, в комплект поставки прибора входят микрофон с предусилителем и вибропреобразователь с адаптером. Технические характеристики прибора в режиме шумомера: диапазон измерений уровней звука, дБ – 20-140; диапазон частот, Гц – 2-20000; частотные характеристики – A, C, Lin; октавный и третьоктавный спектральный анализ; эквивалентный и текущие (F, S, I) уровни звука и звукового давления; максимальные и минимальные значения за время измерения. В режиме виброметра: диапазон измерений уровней виброускорения, дБ – 70-180; диапазон частот, Гц – 0,8-1400; частотная характеристика – Lin; октавный и третьоктавный спектральный анализ; эквивалентный и текущие уровни виброускорения; корректированные Wh, Wd и Wk уровни; максимальные и минимальные значения за время измерения.
Голову совы венчают две покрытые перьями кисточки. Перья напоминают уши, но только напоминают: в действительности ушей не видно. А если бы было видно, многие удивились бы: уши совы не только разные по размеру, они отличаются по форме и расположению на голове. Тем не менее, именно эти уши позволяют ей охотиться в полной темноте, ориентируясь только по звукам: сова способна слышать передвижения мыши на расстоянии 800 м. Правое ухо совы находится ниже и направлено вверх, чтобы она могла слышать звуки сверху. Левое ухо совы находится выше и направлено вниз, чтобы улавливать звуки снизу. Такое расположение ушей помогает сове пеленговать звуки, определяя место расположения источника звука с большой точностью. Это природное явление составляет суть звукового эффекта, известного любителям музыки под названием sorround sound («звук вокруг»). Что же касается вышеупомянутых кисточек, они хотя и не улучшают слух, но указывают, какое у совы настроение, когда они вытянуты, либо приглажены. Комментарий: Туристу под видом попугая продали сову. Через полгода приятель спрашивает его: - Ну, как твой попугай? Научился говорить? - Еще нет. Но ты бы видел, как внимательно он слушает!
Робот, имеющий два слуховых сенсора (микрофона), обеспечивающих дальность работы 5-10 м, точность акустического пеленга 1-10°, рабочий частотный диапазон 200-2000 Гц. Назначение: акустическая пеленгация и локализация объектов-источников звука, сбор и передача акустической информации об окружающей среде, функции телеприсутствия, поддержка речевых команд управления роботом.
Шумомеры CENTER – измерители уровня шума. Приборы выполнены в портативных корпусах и используют в качестве измерительного датчика электретный микрофон.
Профессиональные услуги по переводу текста. Бюро переводов оказывает профессиональные услуги по переводу текста со многих языков мира любой сложности и тематики в самые сжатые сроки. Никаких наценок за срочность и выполнение перевода "трудной" тематики. Гарантия, что перевод будет точным, полным и читабельным. На каждую тематику имеется свой специалист, на каждый язык - носитель этого языка. Индивидуальный подход к каждому клиенту. Апостиль и нотариальное заверение, курьерская служба, online-заказы наличный и безналичный расчет. Cтоимость перевода от 190 рублей (англ-рус, нем-рус, фр-рус за 1800 символов с пробелами)
ВЫУЧИТЬ АНГЛИЙСКИЙ ЯЗЫК! На курсах английского языка English Lingua Centre разгар сезона. Интенсивная программа подходит для восстановления забытого лексического и грамматического материала за счет непрерывности учебного процесса и эффекта погружения в англоязычную среду. Акцент делается на разговорной практике и тренинге общения на английском языке.
Знание английского – это открытые двери в целый мир! Подарите себе новую жизнь - жизнь со свободным общением! Это новый прорыв технологий! Изучение иностранных языков уже стало гораздо быстрее, чем мы привыкли. Найдено достойное применение эффекту 25-го кадра, и теперь он служит людям. Лексика, преподносимая компьютерной программой на высокой частоте, запоминается супер эффективно. Вы просто смотрите на свой монитор, и уже через неделю Ваш словарный запас позволяет понимать песни и фильмы на английском. А уж через месяц!
Образец создан изначально для охраны нефтепроводов: система Sentri с датчиками обоняния, которые реагируют на взрывчатые вещества. Затем система была дооборудования для целей безопасности и иными датчиками, в том числе – датчиками определения местоположения источника звука, например, выстрела. В основе работы системы – также тренировка на соответствующие шаблоны. Чтобы робот мог эффективно действовать, сенсоров у него должно быть как можно больше – хотя бы как у человека: два глаза и два уха. По многосенсорному принципу действует и система Sentri с целью определить местонахождение звука (выстрела, но её можно обучить на идентификацию и других звуков) и нацелить на его источник средства аудио- и видеорегистрации, чтобы соответствующие службы могли точнее разобраться в обстановке. Каковы алгоритмы, лежащие в основе данной системы? Анализируя модели традиционной искусственной нервной сети и динамичной синансовой нервной сети (DSNN), можно заметить определенные преимущества последней. В традиционной искусственной нервной сети работоспособность системы обеспечивает только единый синанс (соединяющая точка), а в динамичной - многократные синансы, увеличивающие скорость и преумножающие интеллект «мозга». Кроме того, в динамичной синансовой нервной сети звуковое распознавание работает совместно с другими сенсорами. (Подробнее о Sentri)
Продолжение разела "Распознавание аудиоинформации и машинный перевод"
|
«Приказчик слушал и улыбался, желая запомнить для употребления сколько можно больше из умных разговоров» Лев Толстой, «Крейцерова соната» |
Темы серии справочников «Компоненты и решения для создания роботов и робототехнических систем» |
|
|
|
Для справки |
Жители Земли говорят на нескольких тысячах языков. И
как следствие этой «вавилонской мешанины» — затрудненный обмен достижениями
между народами. Некоторые филологи создают искусственные языки, вроде эсперанто,
и тщетно стараются сделать их средством общения.
Поэтому становится понятной взволнованность известного английского 'ученого
Джона Бернала, который писал: «Поистине дикое зрелище представляет собой
множество людей, собравшихся на научную конференцию, которые... одинаково одеты,
одинаково выглядят, охватывают... своими мыслями и познаниями почти
тождественные области знания и все-таки абсолютно не способны общаться между
собой и нуждаются в услугах переводчика, если они не потратили уйму труда на
изучение трех или четырех иностранных языков».
Перевод сегодня оказался в самом центре научных проблем. В мире издается на 60
языках более ста тысяч научно-технических журналов, в которых ежегодно
публикуется до четырех миллионов статей. Каждый год регистрируется 200 тысяч
патентов и пишется более 250 тысяч научных отчетов, диссертаций, обзоров.
Ученые и инженеры тонут в необозримом море информации, пытаясь найти все нужное
для своей работы и тратя на это добрую половину рабочего времени. Иногда (шутят
инженеры) из-за недостатка сведений где-нибудь заново изобретается колесо.
Информация на одном лишь английском языке, поступающая в нашу страну в виде
журналов, газет, патентов, становится, естественно, все обильнее. В институтах и
отделах информации различных учреждений трудятся сотни переводчиков.
Однако переводчики, сколько бы их ни было, не успевают. Возможности человека
ограничены. Опытный переводчик в среднем переводит восемь страниц машинописного
текста за полный рабочий день. Можно было бы увеличить число переводчиков. Но их
сложно готовить.
Пять лет учится будущий переводчик в институте; потом требуется еще значительное
время, чтобы приобрести хоть минимум специальных знаний, научиться понимать
сложные технические и научные тексты.
Так почему бы не искать иных путей? Почему бы не построить автоматические
системы, способные анализировать, накапливать и по первому требованию «выдавать»
информацию? Почему бы не создать машину-переводчика?
Но для этого надо сначала классифицировать и связать идеи, научиться методам
выражения этих идей, знать пути человеческого мышления и логическую структуру
языка. И все это изложить в виде алгоритма — системы формальных правил,
механическое выполнение которых приводит к бесспорному решению той или иной
задачи. Сейчас уже становится все более очевидным, что любой сложный
мыслительный процесс может быть разложен на ряд элементарных операций,
выполнение которых под силу машинам.
Проблема эта исполинская, а по мнению иных, и невыполнимая. Проникнуть в святая
святых, в тайны человеческого мышления! Но когда возникает необходимость, любая
задача в конце концов становится людям по плечу.
Первый удачный опыт машинного перевода был сделан девять лет назад. В 1956 году
много писали об опытах, проведенных в Советском Союзе на машинах БЭСМ и
«Стрела». Тогда же было решено создать алгоритм, с помощью которого
быстродействующие электронные машины могли бы переводить любые тексты. С тех пор
была проделана колоссальная работа. Советские ученые создали «промышленный»
алгоритм. Электронная машина переводит с английского языка на русский газетные и
технические тексты и делает это в сто раз быстрее человека.
С самого начала большая группа ученых — лингвисты, логики, математики —
объединилась в Лабораторию машинного перевода, которую возглавил Юрий
Александрович Моторин, обладавший уникальными знаниями. Лингвист по образованию,
проработав переводчиком, он получил диплом еще и технического вуза и стал
специалистом в области вычислительной техники. Такое сочетание как нельзя лучше
пригодилось для новой работы, ибо настало время, когда к изучению языка
привлекаются и статистические методы, и математическая теория множеств, и теория
информации, и новейшая электронная техника.
Было бы неправильно считать, что путь к созданию экономически выгодного
машинного перевода был гладким. Ю. Моторин, В. Павлов, Е. Калинина, Е. Княгинин,
Е. Николаев, А. Богомолкин, Ю. Марчук, десятки других сотрудников лаборатории
испытывали и горечь неудач, и сомнения, и радость от творческих находок.
Читая статьи о «разумных» машинах, нередко поражаешься той легкости, с какой
авторы их расправляются с труднейшими задачами. Стоит появиться магическому
слову «машина», как все трудности будто бы оказываются разрешенными, а ученым
остается только сидеть сложа руки. Быть может, в этом виноваты сами
исследователи, неохотно рассказывающие о бессонных ночах, когда чистый лист
бумаги покрывается формулами, а идея ускользает, хотя час назад, пока ехал в
троллейбусе, все было ясно. Какой-нибудь упрямый факт, пришедший в голову в
последний момент, разрушает стройную систему умозаключений. Да и трудно
рассказывать о творчестве, о том, как идея обретала плоть, как проходили,
казалось бы, бесплодные дни и в то же время совершался «таинственный» процесс
кристаллизации фактов — вплоть до минуты «озарения».
Переводчик не всегда может объяснить, как он переводит. Некоторым даже кажется,
что это происходит «неведомым» путем. Задача лаборатории состояла в том, чтобы
дать машине словарь, составить такую цепь логических операций, следуя которой
мог бы переводить человек, совершенно не знающий иностранного языка, а
следовательно, и машина.
Язык медленно, но верно меняется. Некоторые слова исчезают, появляются новые.
Развиваются наука и техника. Термины, употребляющиеся в новых областях,
перекочевывают в повседневную речь. Только электричество подарило языку свыше
пяти тысяч слов.
В английском языке сейчас насчитывается более 400 тысяч слов. В русском их около
полумиллиона.
Но язык—это и миллиарды различных сочетаний слов, среди которых законными
являются только те, что несут смысловую нагрузку. Фразы строятся по
грамматическим правилам. Но мы иногда читаем предложение, не приходящее а
конфликт с грамматикой, и, однако, утверждаем, что «так не говорят». Одни и те
же слова могут иметь десятки значений и оттенков. В море языка надо было
отобрать наиболее часто употребляющиеся слова или их сочетания.
Давно замечено, что примерно две тысячи слов — тот словарный запас, который мы
употребляем в устной речи. Они, так сказать, «покрывают» наши потребности почти
на 85 процентов. В остальные пятнадцать может входить и добрая сотня тысяч слов,
но каждое из них употребляется нами редко. Подсчитано, что уже сто наиболее
часто встречающихся слов входят в 20 процентов сказанных или написанных нами
фраз. Словарь Пушкина, насчитывающий 21 197 слов, считается богатым.
Для получения устойчивых статистических данных сотрудникам лаборатории
требовалось проанализировать английские тексты в четыре миллиона слов! Это
примерно тринадцать томов, по тысяче страниц каждый. Надо было знать, сколько
раз встречается каждое слово, в какие английские выражения входят -все слова и с
какими другими словами они сочетаются.
На эту работу понадобились бы десятки лет труда многочисленного коллектива
лингвистов.
Но лаборатория, к счастью, имела возможность пользоваться современной техникой.
Анализ поручили сделать счетно-аналитическим машинам. Тексты нанесли на
специальные карточки. Машинам дали программу действия, и вскоре из особого
печатного устройства стала выползать широкая бумажная лента.
Машины рассортировали все слова по алфавиту, числу букв, по окончаниям. Все
устойчивые сочетания, идиомы оказались сгруппированными в определенном порядке.
Это была мечта лингвиста! Машины даже сами подсчитали многие интересные
статистические данные и отпечатали их в конце каждого бумажного рулона.
Система автоматического перевода получила словарь. В нем насчитывается 22 тысячи
английских слов и около 40 тысяч русских. В словарь включали все слова,
встречавшиеся более двух раз. Это довольно высокая степень надежности. Машина
«узнает» девяносто девять слов из ста при переводе газетного текста.
Шли годы. Постепенно вырисовывались все детали алгоритма машинного перевода.
Человек не переводит слово за словом. Он думает о законах того языка, на который
переводит, думает о стилистике, о красоте слога. Простую английскую фразу
неискушенный может перевести дословно: «Последней ночью я пошел в постель в
десять часов». Перечитав русское предложение, он поймет — что-то не так. И,
немного подумав, напишет, наверно: «Вчера вечером я лег спать в десять часов».
Примерно такая работа должна быть предусмотрена в алгоритме, чтобы машина дала
грамотный и точный перевод.
Но вот подготовлены все программы алгоритма. Однако прежде чем они будут введены
в машину, их проверяют вручную, «прогоняя» по ним английские фразы. Наконец
приходит время первых испытаний на машине. Никакая схема или даже перечисление
трудностей не даст представления об огромном напряжении духовных и физических
сил, которое требуется от людей на завершающем этапе работы. Около четверти
миллиона метров бумажной ленты пробито аккуратными узорами дырочек. Это
алгоритм, переложенный программистами на язык чисел. С ленты их будут вводить в
машину. И достаточно одной ошибки, чтобы машина сбилась и понесла околесицу.
Но вот начались испытания. Считывающие устройства «читают» английский текст,
кодируя его числами в двоичной системе. Специальная программа исправляет
вкравшиеся ошибки, как это делают корректоры. Каждое слово отыскивается в
словаре машины и получает цифровой эквивалент, который содержит информацию об
этом слове. Мы узнаем, к какой части речи относится слово, род его русского
перевода, одушевленность, модальность и многое другое. Работают программы,
различающие слова, разные по смыслу, но имеющие одинаковое написание. Например,
«печь» — существительное и «печь» — глагол, «лечу» (от «летать») и «лечу» (от
«лечить»). Работают четыре тысячи схем многозначных слов. Двести грамматических
схем. Схемы отбрасывания грамматических окончаний. Грамматические таблицы
русских слов. Схема синтеза и редактирования русской фразы... Все это
запрограммировано и введено в машину.
Сотрудники лаборатории разработали входной язык. Зная его, лингвисты теперь
«общаются» с машиной, не прибегая к помощи программистов. Специальные
«операторы» помогли лингвистам составлять схемы любой трудности. Операторы —
своеобразные стандартные детали, годные, образно говоря, для постройки и
восьмиэтажного здания и железнодорожной будки. Машине сообщается только номер
нужного оператора, и тотчас начинает действовать та или иная стандартная
программа, насчитывающая сотни команд.
Специальный «диспетчер» (в нем 3,5 тысячи команд) согласует действие всех
программ алгоритма. Благодаря такому «дирижеру» созданный алгоритм можно вводить
в быстродействующие электронные машины любых систем.
Машина переводит, она заменяет сотню переводчиков. Но алгоритм пока не
совершенен. Каждый прожитый день выдвигает новые требования, и улучшать машинный
перевод придется из года в год, так как необходимость в нем будет расти.
Может возникнуть предположение, что с развитием машинного перевода переводчики
останутся без работы.
Когда было налажено производство электронно-счетных машин, поговаривали, что без
работы останутся математики. Машины теперь выполняют работу тысяч людей, но
только на одно обслуживание машин потребовалось больше математиков, чем их
прежде было вообще. Наука движется семимильными шагами, объем работ неслыханно
увеличивается и требует все больше людей и машин. То же будет и с переводчиками.
Что же касается перевода художественной литературы, то вопрос о механизации его
пока не стоит. Здесь попрежнему необходим человек — с его вкусом и чисто
человеческим пониманием художественной ткани произведений.
Машинный перевод воплощает в себе опыт многих переводчиков. Пройдет сравнительно
немного времени, и машина будет «знать» гораздо больше любого переводчика,
взятого отдельно. У нее огромная память, и нам надо передать ей все, что знаем
мы.
Профессор Джон Бернал как-то отметил: «...Открытие электронно-счетных машин я
считаю самым великим открытием истории человечества. Язык выделил человека из
всего животного мира. Только письмо и звук воплощали мысль человека, а теперь
счетные устройства и их коды могут материально воплотить человеческую мысль в
совершенно новые формы, в какой-то мере заменить язык. И даже пойти в своем
развитии дальше языка». Из сборника "Эврика", 1967 год
|
Поведенческие шаблоны роботов-исполнителей (приложение к трилогии «Роботы и частное право»: |
Шаблоны поведения робота-секретарши
— Напряжение необходимо снять? — понятливо подхватила Марианна.
— Да, вообще-то...
Ляпнув это, он через миг сообразил, что поступил опрометчиво.
Заученным движением отставив поднос, Марианна гибко опустилась на колени и, прежде чем
он успел как-то отреагировать, «молния» на его
брюках разошлась с тихим шелестом. Непроизвольно напрягшись, Петр успел охнуть:
— Если войдет...
— Глупости, Павел Иваныч, — Марианна посмотрела на него снизу вверх с уверенной улыбочкой опытной стервы. — Никто не войдет без
позволения, да и задвижку я защелкнула...
Ее теплые пальчики уверенно принялись за работу. «Основных правил у тебя будет два...» Так-то.
Не отбиваться же с воплем — поскольку оригинал, ясный пень, вряд ли когда-нибудь отбивался,
вовсе даже наоборот, надо полагать... И посему
Петр смирился с происходящим, он лишь опустил
глаза, упершись взглядом в ритмично двигавшуюся светловолосую головку, — чтобы не смотреть на
Катин портрет...
Когда все кончилось, Марианна упруго выпрямилась, не спеша, с нарочитой медлительностью облизнула губы и, уставясь на него нахальным взором сообщницы, улыбнулась:
— Вы сегодня в великолепной форме, Павел
Иванович. Честно...
Забрала поднос и, покачивая бедрами, направилась к двери. Петр торопливо застегнулся, чувствуя, как горят щеки. Покосился на стену, встретил спокойный, с лукавинкой взгляд лесной феи.
...— Можно, я уберу, Павел Иванович?
От неожиданности он вскинулся, как ошпаренный, выпрямляясь, зацепил ногой картину, и
она с грохотом обрушилась плашмя на ковер. Смущенно улыбнулся:
— Пугаешь ты меня, тезка Орлеанской девственницы...
— Опять насмехаетесь? — грустно сказала
Жанна. — Девственницу какую-то придумали...
— Не какую-то,, а Орлеанскую.
— А это кто?
Павел мысленно воздел очи горе, вздохнул.
Впрочем, к чему ей с такой фигуркой и мордаш-
кой углубленное знание истории? Смешно даже...
— Убрать?
— Убери, конечно.
Покосившись на него через плечо, Жанна нагнулась за смятой бумагой — не присела на корточки, как это в обычае у женщин, особенно щеголяющих на глазах у мужика в мини-юбках, а
именно нагнулась, держа ноги прямо, так что взору Петра предстали кое-какие пикантные тайны.
Без сомнения, проделано это было умышленно.
Невольно отведя глаза, он проворчал:
— Слушай, тезка Орлеанской девы, на работу, вообще-то, следует и плавки надевать...
Жанна выпрямилась, обожгла его томным.
взглядом и сообщила:
— Я сегодня такая рассеянная, Павел Иванович, ничегошеньки у меня под этим нет... — и
медленно провела ладонями по юбке и блузке. —
Ранний склероз начинается, право слово...
— Опять за свое?
Старательно запихав скомканную бумагу в урну, Жанна подошла вплотную:
— Павел Иванович, вы меня что, бросили?
И я теперь — соблазненная и покинутая?
— Да ладно тебе.
— Ну, а все-таки? За десять-то дней любые
царапины затянутся. А вы девушкой откровенно
пренебрегаете. А девушка, между прочим, истомилась вся, сберегаючи себя для единственного...
Па-авел Иваныч! Садист вы, честное слово...
Если откровенно, у него приятно взыграло
мужское самолюбие — не столь уж часто его откровенно домогались юные красоточки. Пусть даже,
строго говоря, не его, пусть тут и просматривалась
финансовая подоплека... Если подумать трезво,
Пашку многое оправдывает. Все, с кем он забавлялся, в том числе и на грани, имели полное право
отказаться, заехать по физиономии, гордо хлопнуть
дверью... Однако ни одна этого не сделала.
— Жанна, — сказал он, глядя в глуповатые
красивые глазенки. — Тебе, часом, фотографии
не вернуть?
— Которые? — подняла идеально вычерченные бровки Жанна. — А-а... Нет, зачем? Вот кстати, у меня подружка работает в театре, в костюмерной. Помните, я говорила? Можно взять на
пару дней ихний гусарский мундирчик... Павел
Иваныч? Я же не дура, у меня тоже бывают идеи...
«Ну, эта в помощи доброго самаритянина не
нуждается, — про себя констатировал он. — Наоборот».
— Па-авел Иваныч... — тоном обиженного
ребенка протянула Жанна. — Лето же, смена гардероба. А я на Лохвицкого в «Чаровнице» такой
костюмчик видела... Светленький, без подкладки,
конкретная Италия, не бодяжная...
И ухватилась тонкими пальчиками за узел его
галстука. Петр, мысленно плюнув, уступил — ежели совсем честно наедине с собой, то не очень то
и тянуло разыгрывать монаха. Расстегивая на ней
блузочку, он поймал себя на том, что делает это
привычно, со сноровкой окруженного девичьим
сговорчивым цветником барина времен Очаковских и покоренья Крыма. Опять-таки привычно —
была практика во время визита телезвездочки —
пристраивая девушку на обширном мягком кресле, он успел подумать, что рискует не то чтобы
переродиться характером, но изрядно врасти в
Пашкин образ. Если это продлится еще с месяц,
трудновато будет потом отвыкать — от сговорчивых телочек, от роскошной машины, от услужливой горничной, бдительной охраны и всего прочего. Марк Твен, пожалуй, чуточку перемудрил, заставив своего нищего тяготиться королевской
роскошью, — роскошь, знаете ли, обладает пакостным свойством засасывать, особенно тех, кто вырос пусть и не в канаве, но и не в холе...
Жанна застонала, притягивая его голову, и он
перестал о чем-либо думать, потому что мужик
есть мужик и пишется «мужик», аминь, прости
ты меня. Господи...
...Потом она беззаботно пускала дым, уютно
устроившись обнаженной в черном кресле так, как
на одной из фотографий в отведенном ей конверте. Петр, приведя себя в порядок, присел на подлокотник и рассеянно погладил ее волосы — чтобы не выглядеть разочарованным в подруге любовником. Вернется Пашка,
все пойдет по новой, поэтому не стоит разочаровывать девочку холодным
обращением, она-то в чем виновата?
Александр Бушков, «Бульдожья схватка»