Шпора по ЕЯИС, 2ой семестр (Головня) [8282 вопросов]

54. Системы автоматического синтеза речи. Практические приложения речевого интерфейса.

Под системами автоматического синтеза речи (иначе их еще называют

синтезаторами речи) понимают системы, преобразующие орфографический текст и другую

информацию в звучащую речь. Общепринятое в английской литературе обозначение – TTS (Text To Speech) System – системы преобразования текста в речь.

Упрощенная структурная схема системы автоматического синтеза речи представлена на рис.

Под моделью генерации речевых параметров понимается блок преобразования входного орфографического текста в последовательность параметров, с помощью которых можно описать речь. Это могут быть артикуляторные параметры, либо параметры, связанные

с акустикой речи, либо другие параметры, набор которых определяется, исходя из того, какая информация заключена в речевом потоке и каким образом она описана.

Модель генерации речевого сигнала – это блок преобразования речевых параметров в речевой сигнал, который воспринимает пользователь системы. Данный блок сопряжен с динамиками и в некоторых реализациях синтезаторов речи представляет собой только соответствующую аппаратную часть речевого интерфейса, а в некоторых – аппаратно-программную.

Фактически система автоматического синтеза речи – это совокупность двух компонент, которые часто называют синтезатором речевых параметров и синтезатором речевого сигнала. Оба этих компонента реализуются не только как набор программ, но и используют некую базу данных и знаний, содержащую информацию об особенностях организации естественного языка и о закономерностях, которые следует учитывать при синтезе речи. Кроме того, синтезатор речевого сигнала имеет аппаратно-программную реализацию, так как для того чтобы мы услышали звук, необходимо наличие, как минимум, звуковой платы и динамиков, подключенных к компьютеру. Таким образом, на выходе мы получаем звучащую синтезированную речь.

Практические приложения речевого интерфейса.

Прежде чем перейти к рассмотрению примеров практического использования речевого интерфейса, сравним его с наиболее распространенными в настоящее время средствами взаимодействия пользователя с компьютером: клавиатурой и дисплеем. Следует отметить по крайней мере три принципиальных отличия речевого интерфейса:

1) явный недостаток клавиатуры и дисплея заключается в том, что для общения с компьютером человеку нужно пройти специальную подготовку. В то же время речь – это естественный интерфейс для любого, даже неподготовленного человека. Речь снижает в резкой степени психологическое расстояние между человеком и компьютером. Если появляется речевой интерфейс, то круг пользователей компьютером может стать неограниченным;

2) речь сама по себе никак механически не привязана к компьютеру и может быть связана с ним через системы коммуникаций, например, телефон. Речевой интерфейс сокращает физическое расстояние между человеком и компьютером. Это дополнительно расширяет круг потенциальных пользователей компьютеров и делает речевой интерфейс идеальным средством для оздания систем массового информационного обслуживания;

3) можно обращаться с компьютером в полной темноте, с закрытыми глазами, в условиях занятости рук рычагами управления, с завязанными руками и в другой экстремальной обстановке. Это свойство даёт оперативность и мобильность общения, освобождение рук и разгрузку зрительного канала восприятия при получении информации. Это исключительно важно, например, для диспетчера большой энергетической системы или пилота самолёта и водителя автомобиля. Кроме того, компьютерные системы становятся более доступными людям с нарушением зрения.

В настоящее время речевые компьютерные технологии уже достаточно широко распространены и развиваются в нескольких направлениях, основные из которых представлены на рис.

Содержание