logo
Шпора по ЕЯИС, 2ой семестр (Головня) [8282 вопросов]

60. Методы синтеза речевого сигнала. Геометрическая модель речевого тракта.

Одной из первых моделей синтеза речевого сигнала является геометрическая модель речевого тракта. В ее основу положена попытка смоделировать реальный речевой тракт человека, выделив в нем основные составляющие и заменив их на соответствующие технические реализации. Воздух, поступающий из легких и проходящий через голосовые связки, образует звук. Затем этот звук подвергается дальнейшим изменениям под воздействием органов речеобразования. Таким образом, в местах наибольшего сужения речевого тракта образуется фонема. Для указанных сужений вычисляются площади сечений S(х), которые затем используются в качестве основы для моделирования геометрии речевого тракта.

Рисунок 3.14. Сечения речевого тракта человека

Согласно такому подходу, речевой тракт моделируется в виде набора цилиндрических секций, характерных для того или иного звука (рис. 3.15). Таким образом, геометрия речевого тракта аппроксимируется определенным количеством секций. В среднем их берется по одной секции на один сантиметр речевого тракта. Следует при этом отметить, что у мужчин длина речевого тракта порядка 12 см, а у женщин – около 10 см. Акустическая труба, состоящая из набора секций, возбуждается колебаниями от источника речевого возбуждения, вследствие чего образуются резонансы. Эти процессы моделируются различным образом, с тем чтобы на выходе акустической трубы получился речевой сигнал.

Рисунок 3.15. Моделирование геометрии речевого тракта в виде набора цилиндрических секций

Существует много методов моделирования. Наилучшая цифровая модель, которая сейчас известна и позволяет получить хорошую аппроксимацию синтеза речевого сигнала, это модель, основанная на частичных коэффициентах автокорреляции (PARCOR). Синтезатор, построенный на этом методе, имеет вид, представленный на рис. 3.16. На данном рисунке используются следующие обозначения. Ci – секции, моделирующие участки речевого тракта. Параметры этих секций управляются коэффициентами Кi. Голосовой источник возбуждения управляется частотой основного тона F0 и амплитудой звука А. Источник возбуждения может переключаться на шумовой источник, который также управляется амплитудой (силой) звука Аш. Таком образом, включая тот или иной источник возбуждения, а также меняя величины корреляционных коэффициентов Ki, мы изменяем площадь сечения речевого тракта в разных точках и моделируем специфические особенности речевого тракта для всех возможных звуков.

Рисунок 3.16. Схема синтезатора речи, построенного на основе моделирования геометрии речевого тракта

Алгоритмическая схема каждой ячейки Ci может быть представлена в виде схемы, аналогичной представленной на рис. 3.17.

Рисунок 3.17. Схема цилиндрической секции

Таким образом, чтобы промоделировать одну секцию акустической трубы, требуется сделать одно умножение, три сложения и одну задержку. Такие синтезаторы генерируют достаточно качественную речь. Основная задача – правильно подать на вход коэффициенты Ki и смоделировать источник возбуждения. Из-за того, что текущие размеры речевого тракта определяются трудно, можно только догадываться об их изменении, и до сих пор нет такой действующей модели. Поэтому все-таки лучшие практические результаты показали формантные модели синтеза речевого сигнала.