Шпора по ЕЯИС, 2ой семестр (Головня) [8282 вопросов]

61. Методы синтеза речевого сигнала. Формантная модель.

Формантная модель является наиболее распространенной и чаще всего используется в реализации систем автоматического синтеза речи. В рамках формантной модели описываются частотные характеристики речи, которые содержат основную информацию о произносимых фонемах. Акустические характеристики фонем тесно связаны с артикуляционными особенностями их образования – местом и способом. Речевой аппарат человека представляется в виде двух параллельных каналов – ротового и носового, образующих единую акустическую систему, возбуждаемую периодическими колебаниями голосовых связок либо турбулентным шумом. Распространение акустических волн в такой системе описывается уравнением Вебстера:

Решение этого уравнения для речевого тракта различных конфигурация, соответствующих различным звукам речи, является основным предметом исследования акустической теории речеобразования. В результате решения получается аналитическое выражение для передаточной функции речевого тракта H(p). В общем случае при достаточно малых потерях (что вполне справедливо для реального речевого тракта):

На практике передаточная функция аппроксимируется ограниченным числом формант (до четырех) с помощью последовательно соединенных формантных фильтров.

Под формантой в общем случае понимают полосы передаточной функции речевого тракта, характеризующиеся частотой Fi, амплитудой Ai и полосой пропускания Bi.

На амплитудно-частотном спектре форманты проявляются в виде заметных максимумов (рис. 3.18). Однако не всякий максимум является формантой. Обычно в диапазоне частот первых четырех формант ряд побочных максимумов не является формантами (рис. 3.19).

Рисунок 3.18. Выделение формант в спектре речевого сигнала

Рисунок 3.19. Выделение формант в спектре речевого сигнала для фонемы [ а ]

Анализ вида передаточных функций речевого тракта для различных групп звуков показал, что достаточно полно описать их акустические характеристики можно, используя формантную модель (рис. 3.20).

Рисунок 3.20. Формантная модель акустики речевого тракта

Управляющими параметрами модели являются следующие 10 формантных параметров: • Aр, Aн – амплитуды голосового возбуждения ротовых и носовых формант; • Aф – амплитуда шумового возбуждения фрикативных формант; • Aа – амплитуда аспиративного возбуждения ротовой форманты; • F0 – частота основного тона; • F1, F2, F3 – частоты первой, второй и третье формант; • Fф – частота фрикативных формант; • Bф – полоса пропускания фрикативных формант. Различия в способе образования фонем определяются амплитудой голосового возбуждения ротовых формант Aр, носовых формант Aн, амплитудой шумового возбуждения фрикативных формант Aф, амплитудой аспиративного возбуждения ротовых формант Aа, а также частотой основного тона F0. Причем очень важной является временная организация этих параметров. Группа гласных отличается от согласных тем, что для них Aр = 1, а Aф = Aн = Aа = 0. Кроме того, внутри группы гласных фонем, т.е. по месту образования, гласные отличаются значениями формантных частот F1, F2 и F3, причем основную роль играют F1 и F2. На рис. 3.21 приведен пример распределения формантных частот гласных для мужских и женских голосов. Приведенные здесь зависимости значений первой и второй формант для одного голоса образуют так называемые формантные треугольники, в рамках которых распределяются формантные частоты гласных большинства дикторов. Данные на рисунке значения являются усредненными и могут варьироваться в рамках допустимых диапазонов частот формант для разных голосов.

Рисунок 3.21. Распределение формантных частот гласных для мужских и женских голосов

При внимательном рассмотрении данных формантных треугольников можно сделать определенные выводы о близости (схожести) различных фонем. Например, хорошо видно, что фонемы [ы] и [и] очень незначительно различаются по значению первой форманты. При этом фонемы [у] и [о] близки по значению второй форманты. Еще один немаловажный вывод заключается в том, что диапазон частот формант женского голоса значительно выше и более разбросан по сравнению с данными для мужского голоса. Этим объясняется то, что большинство систем автоматического синтеза речи «умеют говорить» только мужскими голосами. Кроме того, этот факт привносит дополнительные трудности в решение задачи распознавания речи женского голоса. Наибольшую роль в разделении согласных по месту образования играет формантная частота F2. Причем вследствие коартикуляции F2 зависит от места образования не только согласного, но и окружающих его гласных (рис. 3.22). Как видно из рисунка, наибольшему коартикуляционному воздействию подвергается группа небных твердых согласных [к], [г], [х], а наименьшему – мягкие согласные.

По способу образования фонемы подразделяются на следующие виды:

Рисунок 3.22. Зависимость частоты второй форманты согласных от частоты гласных в слоге

Содержание