К началу раздела «Распознавание аудиоинформации и машинный перевод»

Более полный поиск по теме Вашего запроса (наберите его в окне поиска)

Примеры применения нейронных сетей в задачах распознавания привела фирма StatSoftRussia. В частности, НС-система сканирует видеоизображения станций лондонского метро и определяет, вне зависимости от условий освещенности, насколько станция заполнена народом. Также в сфере обработки изображений НС-системы осуществляют оптическое распознавание символов, включая распознавание подписи с учетом не только окончательного её рисунка, но и скорости авторучки на различных участках, что значительно затрудняет подделку подписи. В сфере распознавания звука НС-системы способны на лингвистический анализ: например, сеть с т. н. «неконтролируемым обучением» используется для идентификации ключевых фраз и слов в языках туземцев Южной Америки. Синтез речи: экспериментальная система Nettalk способна произносить фонемы из написанного текста. Техническая диагностика: по вибрации и шумам в механизме можно на ранней стадии определить неисправности в нём и произвести превентивный ремонт.
То есть, методы НС можно использовать в любой ситуации, где требуется найти значения неизвестных переменных или характеристик по известным данным наблюдений или измерений, причем НС довольно устойчивы к помехам. Области применения — различные задачи регрессии, классификации и анализа временных рядов. При этом «исторических» данных, имеющихся в распоряжении исследователя, должно быть достаточное количество, а между различными изучаемыми характеристиками и параметрами должна существовать некоторая связь или система связей. НС особенно эффективны в тех задачах, когда закономерности в данных и связи между переменными носят очень сложный характер и не выявляются традиционными методами. Еще одно направление в применении нейросетей — разведочный анализ и поиск кластеров в данных. При этом в решении задачи анализа и добычи больших потоков данных оперируют такими терминами, как «бурение и расслоение данных», «разведчик общих многомерных моделей» и т. п.
Как соотнести сказанное с решением задачи распознавания образов, с чем сегодня, в принципе, справляются традиционные цифровые технологии, страдая, однако, слишком большими величинами погрешностей? За консультацией мы обратились к главному научному сотруднику 3 ЦНИИ Минобороны РФ Костогрызову А. И. В качестве ответа профессор привёл пример из книги «Инструментально-моделирующий комплекс оценки качества функционирования информационных систем «КОК» (авторы — М. М. Безкоровайный, А. И. Костогрызов, В. М. Львов). В примере гипотетический комплекс ПВО отражает налёт 20 целей, из которых 60% — ложные. Сравниваются два варианта распознавания истинных и ложных целей:
а) распознавание силами оператора,
б) распознавание специализированной нейросистемой.
Результаты расчетов показали, что вероятность корректного распознавания целей по варианту «а» не превышает 0,62. Самостоятельная работа нейросистемы в автоматическом режиме обеспечит корректность распознавания с вероятностью 0,94. А функционирование оператора, оснащенного нейросистемой, позволит повысить эту вероятность до уровня 0,96. А. Барсуков, журнал "ТКТ" " 12, 2003 г. (через эту ссылку можно бесплатно скачать справочник)

ВИДИМАЯ РЕЧЬ.
Потеря слуха часто влечет за собой и другое несчастье — потерю речи. Глухой человек теряет самоконтроль за речью, не может оценить громкость, эмоциональную окраску произносимых слов. Однако специалисты пытаются сохранить у оглохших людей разговорные навыки. По всей вероятности, хорошую помощь окажет прибор видимой речи — ВИР, созданный изобретателями В. Лаптевым, Л. Постниковым и В. Цукерманом.
Сигнал от микрофона после преобразования попадает на особый экран, на котором каждый звук получает свое индивидуальное очертание. Из рисунков складываются слова, как из букв. Ученик внимательно изучает артикуляцию и рисунок учительской речи и старается вызвать на экране ВИРа точно такой же рисунок, какой получается у преподавателя. А сходен рисунок — значит, сходно звучание. При этом нужна не очень длительная тренировка: ведь у глухонемых поразительно развита зрительная память. Из сборника "Эврика", 1967 год

«Сакрамент» приглашает на выставку CeBIT 2004
Mинск, Беларусь - 25 Февраля 2004 - Компания «Сакрамент» приглашает посетить свой стенд (павильон 027 , стенд E21/1) на одной из крупнейших в мире выставке современных информационных технологий и систем автоматизации CeBIT 2004, (г. Ганновер, Германия 18-24.03.2004 г.).
На выставке компания «Сакрамент» представит свои новейшие разработки в области речевых технологий:
Система синтеза речи Sakrament TTS Engine - преобразует текстовую или числовую информацию в качественный синтезированный голос, по восприятию близкий к человеческому. Языки: Английский, Русский; Голоса: 6 мужских и 4 женских; Стандарт: MS SAPI 5.1;
Система распознавания речи Sakrament ASR Engine - распознает человеческую речь, позволяя использовать естественный для человека речевой интерфейс для общения с электронной техникой. Языки: не зависит от языка; Точность распознавания: более 98 процентов; Размер Словаря: виртуально неограничен; Стандарт: MS SAPI 5.1;
MPX2053DPСистема клонирования голоса Sakrament Personal Voice Master, предназначенная для автоматического создания пользователями собственного синтезированного голоса;
Устройство Sakrament SpeechBOX - реализация Sakrament TTS/ASR на микропроцессорной платформе.

21 апреля 2009 г. в рамках выставки, посвященной научно-техническим достижениям, фирма «ОТ-КОНТАКТ» провела презентацию программно-аппаратного комплекса речевого управления «Тембр РУ-1» (на фото - автор разработки Александр Бояров). Фирмой разработана технология, позволяющая голосом управлять разнообразными устройствами: компьютером, бытовыми приборами, игрушками и т.д. Макет системы состоит из трех частей: радио-гарнитуры, программного модуля распознавания команд и инфракрасного (ИК) приемопередающего устройства - «ТембрИК».
Благодаря использованию средств шумоподавления и специальных алгоритмов распознавания, речевое управление сохраняет работоспособность при соотношении сигнал/шум в зоне гарнитуры 10 дБ. Таким образом, даже на фоне достаточно громких посторонних звуков: музыка, шум бытовой техники, речь других дикторов, система речевого управления с достаточно высокой точностью распознает команды.
Благодаря использованию иерархического разделения набора команд возможно создание систем речевого управления с практически неограниченным набором команд. Отдельная иерархия может содержать 100 и более команд.
It is hard to make robots - zoologists? - It is hard to x-copy "War and peace" manually. / Тяжело делать роботов-зоологов? - Тяжело вручную ксерокопировать "Войну и мир".Использование специальной радиогарнитуры (радиус действия до 50 метров в помещении), позволяет осуществлять управление техникой из любой точки небольшого офиса или квартиры.
Основные преимущества:
• высокая надежность распознавания команд на фоне шумов;
• практически неограниченная емкость иерархического словаря команд;
• мобильность управления осуществляется на расстоянии до 50 м. от компьютера;
• возможность управления практически любыми устройствами, имеющими ИК пульт дистанционного управления.
Стадия разработки:
Работающий макет. Реализовано управление игрушкой-роботом, вентилятором, компьютером т.д.
Области применения:
Данную технологию планируется использовать в системах управления интеллектуальными зданиями, в интерфейсе человек-компьютер, в сфере разработки игрушек и т.д.
Особый интерес представляет речевое управление для людей с ограниченными физическими возможностями. Используя данную технологию, человек только с помощью голоса может набирать необходимый телефонный номер производить телефонные звонки, например, вызвать скорую помощь, управлять компьютером, управлять освещением, бытовыми приборами - телевизорами, магнитолами, вентиляторами и прочими устройствами, имеющими ИК управление.
В настоящее время идет апробация использования речевого управления для виртуальных тренажеров. Кроме того, фирмой разработано программное средство оценки правильности пения - «Орфей».

Об использовании данных приёмников глобальных спутниковых систем определения координат (систем глобального позиционирования) GPS / ГЛОНАСС, встраиваемых в видеокамеры, ноутбуки, мобильные телефоны, ИК-камеры и другую съёмочную и компьютерную технику, в качестве метаданных для структурирования видео- и аудио информации при её анализе, поиске и архивировании

Цифровое автоматическое распознавание речи. МТУСИ на конференции "Цифровая обработка сигналов и её применение" представил методику для выбора эффективных акустических параметров (АП). с целью их последующей классификации. Сначала набор акустических характеристик подвергается предварительной статистической обработке с целью сокращения его размерности, при которой еще сохраняется минимальная дискриминационная способность различения классов речи. Полученный сокращенный ансамбль АП служит первоначальной информацией для тренировки обучающей системы, построенной на нейросетях. Методика позволяет значительно сократить количество параметров, характеризующих классы речевых сигналов, соответствующих различным патологиям. Использование АП широко применяется для описания клинического состояния речи (нормальной или патологической), поскольку эта процедура позволяет выявлять особенности говорящего, которые сложно рассчитать другими методами. Однако, до сих пор полностью не ясно, какова информационная ёмкость каждого из АП. В этом смысле актуален вопрос правильного выбора АП и их интерпретации с целью классификации речевых сигналов.
Акустический анализ речи требует большого количества АП, оценка которых должна проводиться в реальном времени, основываясь на процедуре кратковременного Фурье-преобразования, которая, в свою очередь, очень чувствительна к шумовым условиям электронной записи сигнала. Авторами предложена предварительная статистическая обработка начального набора АП с целью увеличения их эффективности по каждому из заданных классов речевых сигналов. Составление ансамбля эффективных АП совершается на основе выбора при заданном дискриминационном критерии. Для этого проводится исследование как корреляционных свойств, так и информационной нагрузки полного ансамбля АП. Окончательная размерность ансамбля формируется с помощью статистической процедуры анализа главных компонентов. Методика ориентирована на АРР, состоящее из двух этапов:
— расчет АП и выбор эффективного ансамбля для каждого из заданных классов речи;
— тренировка обучающей системы АРР, построенной на нейросетях с использованием в качестве входа полученного эффективного ансамбля.
Акустический анализ речи состоит в определении колебательных параметров или АП, характеризующих её гармоническую природу. В зависимости от выбираемых для измерения акустические свойства АП могут быть разделены на две категории:
— квазигармонические АП, проявляющие всевозможные виды периодичности, имеющиеся в речевом сигнале; к этим параметрам относятся питч, форманты и ширина их полосы;
— шумовые АП, измеряющие относительные характеристики шумового фона в речевом сигнале; примеры этой категории — джиттер, шиммер и гармонический компонент шума.
Выбор АП подразумевает характеристики, легко измеряемые и слабо зависящие от помеховой обстановки, в частности, от фонового шума. На практике электронная обработка речи деградирует из-за электронно-акустических устройств преобразования сигнала (микрофона, АЦП, динамика и пр.). В работах МТУСИ рассмотрена компенсация помеховых составляющих, возникающих во время электронной записи речи при наличии стационарного или квазистационарного фонового шума. Фоновый шум непосредственно приводит к ошибке в оценке АП, точность которой необходима для правильной классификации и АРР. С другой стороны, эффективность оценки АП ухудшается, если не устранять искажающие речь помехи. Например, если характер помех во время тренировки обучающей системы речевого классификатора отличается от таковых при оценке АП в момент распознавания, то работа АРР заметно ухудшается. Поэтому необходимо применять методы улучшения входных речевых сигналов, чтобы уменьшить чувствительность к помеховой обстановке. А. Барсуков, журнал "ТКТ", № 7, 2002 г. (через эту ссылку можно бесплатно скачать справочник, авторские материалы которого разрешено использовать для написания таких работ, как эссе, сочинение, доклад, реферат, курсовая работа, дипломная работа, бакалаврская / магистерская работа, диссертация)

Принципиальна ли для синтезатора речи разница между русским языком и украинским в смысле обертонов?
Очень, если учитывать что надсознанием украинцы отличаются от русских более мягким "г". Есть более серьёзная проблема: пижоны, которые вместо "сливочный" и "молочный" говорят в эфире "сливошный" и "молошный", чем затрудняют иностранцам и школьникам изучение русского языка, сужая тем самым зону влияния русского языка. Трудности возникнут и у систем распознавания русской речи, и без того недостаточно совершенных. Поэтому в интересах национальной безопасности подобных реформаторов лучше не пускать в ТВ и радиоэфир. Ненормативность во всех отношениях угрожает русскому языку, в том числе - угроза внесудебных расправ (заблокировать сайт без решения суда) над слишком смелыми сайтами Рунета, которая, как и любая другая угроза собственности, может побудить людей регистрироваться на той же Украине, в Африке, Океании. а затем вообще уходить из русскоязычного интернет-пространства в более многолюдное англоязычное.

Всякого ли человека будет ли понимать робот?
Робот поймёт любого человека, если тот знает о чем говорит. Робот, взявший 5 уроков английского языка свободно сможет разговаривать с любым человеком, тоже взявшим 5 уроков английского. Но все же если у человека насморк, то в целях безошибочного распознавания речи роботом человеку лучше говорить по-французски (рекомендация: при насморке не ковыряйте в носу перочинным ножиком, т. к. лезвие покроется ржавчиной).

«Нужны были новые люди. И Иван Ильич стал этим новым человеком»

Лев Толстой, «Смерть Ивана Ильича»

Темы серии справочников «Компоненты и решения для создания роботов и робототехнических систем»

KF8RJ - распознавание и озвучивание текста на макинтошах. JME8RW - надиктованные цифры женским голосом. FR95T - приборы для распознавания речи. KLERR34 - логико-лингвистические модели. UDYE64 - методы распознавания звуковых сигналов. HJFV9T9R - распознавание речи посетителей: sample. HDUFE83 -  многоязычный поиск информации.  HDU884 - акустические средства обнаружения.

Прогноз от справочника "Кто есть кто в робототехнике" (перевод осуществлён компьютерной программой) The forecast from the directory "Who is who in a robotics" (translation is carried out by the computer program)

Развитие программ анализа и синтеза речи сделает интеллектуальной и интерактивной такую услугу, как "секс по телефону". Общаться с клиентом будет робот-актриса, которая в самом начале диалога будет менять голос и следить как клиент реагирует на те или иные высоту голоса, тон, тембр, обертоны, интонации, модуляцию. Определив параметры, которые вызывают наиболее живую реакцию клиента, робот будет задавать наводящие вопросы, ответы на которые позволят системе искусственного интеллекта составить психологический портрет клиента, понимание его проблем и желаний. Литературная программа, подстраиваясь под результаты этого анализа будет в реальном времени сочинять сценарий дальнейшего общения, которое позволит держать клиента в такой кондиции, пока он не потратит на данную услугу все свои деньги.

Development of programs of the analysis and synthesis of speech will make intellectual and interactive such service, as "sex by phone". The robot-actress who right at the beginning of dialogue will change a voice will communicate with the client and to keep up as the client reacts to those or others height of a voice, tone, a timbre, overtones, intonations, modulation. Having defined parameters which cause the most alive reaction of the client, the robot will set leading questions, answers on which will allow system of an artificial intellect to make a psychological portrait of the client, understanding of his problems and desires. The literary program, being arranged under results of this analysis in real time will compose the script of the further dialogue which will allow to hold the client in such standard while he will not spend all money for the given service.

Пример диалога для тренировки робототехнических систем на распознавание и синтез современной разговорной речи (приложение к трилогии «Роботы и частное право»:

The robot - leather is human body / Робот-кожа есть человеческий орган    Преспокойно глядя на него, Лара осведомилась:
— С чего начать прикажете? Мне ложиться или как? Девушка участвует или она только смотреть будет?
— Сядь, — сказал Мазур. — Поговорим серьезно.
Лара опустилась в ближайшее кресло, непринужденно закинула ногу на ногу, проворно расстегнула пуговицы и распахнула куцый халатик, открыв взорам великолепное тело. Наматывая на указательный палец локон, как ни в чем не бывало улыбнулась Мазуру:
— А ведь ты меня, котик, по-прежнему хочешь, даже теперь. Вон как брюки топырятся. Давай начнем с минета по старой памяти, только непременно в резинке. И тебе приятно, и девушка заодно поучится, а то вдруг она квалифицированно сосать не умеет... Ну?
Все это было произнесено самым непринужденным тоном, со светской улыбкой. «Ага, — подумал Мазур, — это, надо полагать, и есть выбранная линия защиты от грубой и похабной реальности, нечто вроде клише "Принцесса в лапах пиратов". Нет, но великолепно держится, стервочка...»
Он оглянулся на напарницу чуточку растерянно — никому бы в этом не признался вслух, но сейчас он искренне не представлял, как переломить ситуацию в свою пользу и придать беседе должное направление. Мужику бы он с ходу въехал по зубам, что всегда способствует откровенности, но что прикажете делать с этой стервой? Тут решаться надо, подготавливать себя внутренне — даже прекрасно помня, какую она ему участь готовила.
Катя, поймав его взгляд, не колебалась ни секунды — гибко взмыла из кресла, подошла к Ларе и неожиданно залепила ей столь смачную и оглушительную пощечину, что Мазур на миг оторопел. Потом с тем же безразличным выражением на смазливом личике громко, раздельно скомандовала — Застегнись, сучка, и сядь нормально, пока я тебе козью морду не захерачила...
Лара, с багровеющим на щеке отпечатком пятерни, кинула на нее исполненный бессильной злости взгляд, но, к некоторому удивлению Мазура, послушно застегнулась и уселась, как школьница в классе. Вернувшись на свое место, Катя тем же бесстрастным тоном посоветовала:
— Будешь ерепениться или запираться, вибратор горчицей намажу и загоню на  всю длину, не доверяя мужикам столь ответственное дело. Усекла, прошмандовка?

Александр Бушков, «Пиранья против воров-2»