logo search
Шпора по ЕЯИС, 2ой семестр (Головня) [8282 вопросов]

Структура синтезатора речи по тексту Ключевые понятия:

структура фонемного синтезатора речи по тексту, лингвистический процессор, лингвистическая база данных и знаний, просодический процессор, фонетический процессор, акустический процессор.

Рассмотрим эту структуру более детально, выделив в ней все значимые компоненты, соответствующие задачам, решаемым в процессе синтеза речи. На рис. представлена структура фонемного синтезатора речи по тексту, основными компонентами в которой являются: • лингвистический процессор; • фонетический процессор • просодический процессор; • акустический процессор. Как видно из данной структуры, синтезатор речи состоит из ряда процессоров (обработчиков), основная задача которых заключается в поступенной обработке входного орфографического текста. Эта обработка представляет собой разметку текста с целью его преобразования в последовательность параметров, описывающих речевой сигнал. Результирующая последовательность параметров должна быть «воспринята» акустическим процессором, задачей которого является непосредственное воспроизведение звука, т.е. собственно синтез речи. Особенности функционирования каждого из перечисленных компонентов синтезатора речи зависят от выбранной модели синтеза. При этом некоторые из указанных компонентов могут исчезнуть, некоторые объединиться в один, некоторые преобразоваться в другой. В данном учебном пособии будем говорить о некоторой «усредненной» структуре синтезатора речи и учитывать особенности отдельных моделей синтеза речи при рассмотрении тех компонентов, в которых решение соответствующих задач будет уместна.

Рисунок. Структура фонемного синтезатора речи по тексту

Рассмотрим кратко представленные на рис. компоненты синтезатора речи. Первый компонент называется лингвистическим процессором. Иногда его называют еще текстовым процессором. Лингвистический процессор предназначен для преобразования входного орфографического текста в фонемный текст. Указанный фонемный текст попадает в память ЭВМ одним из двух способов: либо его вводит пользователь, либо он является результатом работы системы, автоматически синтезирующей естественно-языковые тексты. Лингвистическим процессором используется лингвистическая база данных и знаний, включающая словарь естественного языка, а также знания морфологии, синтаксиса и семантики. В результате на выходе лингвистического процессора мы имеем вместо орфографического текста размеченный фонемный текст. Под разметкой понимается разбиение текста на отдельные элементы в следующей иерархии: 1) фонетический период; 2) фразы; 3) синтагмы. Кроме того, лингвистический процессор осуществляет: 1) расстановку ударений; 2) интонационную маркировку. Это основные 5 функций лингвистического процессора. Размеченный фонемный текст поступает на вход двух следующих процессоров: просодического и фонетического. На выходе просодического процессора получается просодически размеченный фонемный текст. На выходе фонетического процессора получается либо последовательность акустических параметров, либо формантные параметры, либо аллофонный текст. Это зависит от выбранного метода реализации синтезатора речи. Просодический процессор работает со специальной просодической базой данных (БД) и правил, фонетический процессор – с фонетическими правилами.

В результате работы просодического процессора фонемный текст делится на акцентные группы (АГ). Далее осуществляется разметка АГ на элементы акцентных групп (ЭАГ): интонационные предъядро, ядро и заядро. И наконец, последняя функция просодического процессора – это установка значений интенсивности или амплитуды (А), длительности фонем (Т) и частоты основного тона или мелодики (F0) для каждого ЭАГ. Задача фонетического процессора заключается либо в генерации последовательности акустических параметров речи, либо в выработке формантных параметров фонем, либо в подстановке позиционных и комбинаторных аллофонов Полученная таким образом информация, т.е. просодически размеченный фонемный текст и параметры, сформированные фонетическим процессором, объединяются в одном процессоре, который называется акустическим процессором. Акустический процессор на основании информации о том, какие аллофоны требуется синтезировать, а также какие лингвистические характеристики должны быть приписаны каждому аллофону, синтезирует речевой сигнал. Акустический процессор использует соответствующую БД, в которой хранятся акустические эталоны аллофонов, правила модификации аллофонов и правила модификации синтезируемого голоса.