Шпора по ЕЯИС, 2ой семестр (Головня) [8282 вопросов]

53. Исторический обзор проблемы распознавания и синтеза речи.

Вопрос о возможности общения с технической системой интересовал человечество уже давно, с тех пор как начали появляться первые механические машины. Возникла идея научить машину говорить. Первые попытки создания в Росси синтезированной речи относятся к XVIII веку. Во времена правления Екатерины II Петербургская Академия Наук объявила конкурс на создание говорящей машины. Это был механический синтезатор речи, с помощью которого воспроизводились отдельные гласные звуки русской речи. В XIX веке появление резонаторной теории Гельмгольца дало новый толчок в развитии речевых исследований. Речевой тракт человека рассматривался как последовательность резонаторов. Ученые пришли к выводу о том, что гласные звуки различаются резонансными частотами, названными впоследствии формантами.

Серьёзные исследования в области речи относятся к началу XX века. В 1939 г. американский учёный Дадли создал первый вокодер, который осуществлял запись, сжатие и воспроизведение речи.

Основными историческими этапами и направлениями развития рассматриваемой проблематики являются следующие:

• развитие теория дифференциальных признаков;

• появление акустической теории речеобразования;

• 40-е годы XX века: получение первых результатов в распознавании изолированных русских гласных;

• создание в г.Бнро Института речи, основные цели которого заключались в разработке вокодеров, решении задач верификация голоса, распознавании ключевых слов;

• начало 1965 г. XX века – 1-я Всесоюзная школа-семинар по автоматическому распознаванию слуховых образов (АРСО), собиравшая в лучшие годы до 250 участников. Последнее АРСО-17 было проведено в 1992 г. За эти годы советскими исследователями были предложены признанный во всем мире ДП-метод распознавания речи, формантный метод синтеза русской речи по тексту и экспертный метод распознавания сонограмм. Таким образом, была заложена

основа перехода к новому этапу речевых исследований – решению задачи распознавания

речи неограниченного словаря;

• 1967 г. XX века – разработка метода динамического программирования, что

фактически явилось революцией в принятии решений при распознавании речи;

• разработка метода коэффициентов линейного предсказания анализа речевого сигнала;

• развитие экспертно-лингвистического метода, основанного на использовании комплекса акустико-фонетических знаний;

• проект АРПА (США);

• появление метода скрытых марковских моделей для решения задачи распознавания речи;

• 80-е годы XX века – появление первых коммерческих систем синтеза и распознавания речи. МОНИИС – система автоматической обзвонки. Распознавание изолированных речевых команд малого словаря;

• 90-е годы XX века – многоязычные синтезаторы речи, распознавание больших словарей;

• разработка пишущей машинки с голоса – система ДРАГОН и др.;

• проекты по созданию систем автоматического перевода (английский, немецкий, японский языки). Цепочка: ввод РС – распознавание – понимание – перевод через английский язык – синтез – РС;

• развитие компьютерной телефонии.

Содержание