Шпора по ЕЯИС, 2ой семестр (Головня) [8282 вопросов]

62. Компиляционные методы синтеза речевого сигнала.

Эти методы основаны на использовании отрезков естественной речевой волны. Благодаря этому, звук не генерируется, а извлекается из памяти, где хранятся заранее заготовленные отрезки речевой волны. Преимущество таких синтезаторов заключается в том, что они позволяют при определенных условиях приблизить качество синтезированной речи к естественной. Это очень важное преимущество, так как, как бы ни была упрощена модель речевого тракта, все равно мы многого о ней не знаем, особенно того, что касается индивидуальности голоса. Поэтому если потребуется синтезировать свой собственный голос, то лучше использовать компиляционные методы. Одним из наиболее простых вариантов реализации компиляционного метода синтеза речевого сигнала является аллофонная модель, в которой в качестве отрезков естественной речевой волны используются записи аллофонов. Для реализации систем автоматического синтеза речи на основе указанной модели необходимо выполнить ряд предварительных этапов: 1) запись и оцифровка наборов слов или фраз, из которых впоследствии будут вырезаться аллофоны (существуют такие специальные наборы слов для надиктовки, которые рассчитаны на то, что из этих наборов можно будет нарезать необходимое количество аллофонов); 2) используя средства редактирования оцифрованного звука, нарезать необходимое количество аллофонов (это делается в основном вручную, на слух; при этом желательно нарезать несколько вариантов одного и того же аллофона, чтобы можно было впоследствии выбрать лучшие по качеству звучания); 3) сохранить наборы аллофонов в специальной звуковой базе данных, которая будет использоваться синтезатором речи. Описанные действия являются достаточно простыми, но проблема заключается в том, какое количество аллофонов требуется подготовить для достаточно хорошего качества синтеза речи. Подсчитаем сначала общее количество аллофонов, которые могут быть в русской речи. При этом требуется учесть типологию аллофонов и их свойства. Подсчитаем теперь общее число позиционных аллофонов. Известно, что в русской речи число фонем Nф = 42. Каждая фонема может быть представлена в виде позиционного аллофона в 6-ти вариантах, т.е. имеем Np = 6. Итак, число позиционных аллофонов Nп.ал. = Nф x Np = 42 x 6 = 252. Теперь рассчитаем количество комбинаторных аллофонов. Их число зависит от количества левых и правых контекстов фонем. В общем случае число левых контекстов Nl = 42 + 1 = 43 (т.к. может быть пауза в начале). Число правых контекстов такое же: Nr = Nl = 43 . Тогда получаем общее число аллофонов русской речи: Nал. = 42 x 6 x 43 x 43 = 466 000 – это почти 0,5 млн. аллофонов! Если мы хотим синтезировать качественную речь, то необходимо набрать базу из такого количества аллофонов. Потом в процессе синтеза речи для каждого слова будут выбираться нужные аллофоны и компилироваться в соответствующий речевой сигнал. Очевидно, что вручную перебрать такое число аллофонов практически нереально. Поэтому разработчики пытаются минимизировать число необходимых аллофонов. Разумеется, при этом стараются не ухудшить качество синтеза. Вспомним, что основными недостатками компиляционных методов являются: 1) потенциально большой объем информации, которую нужно запомнить (для хорошего качества речи требуются тысячи аллофонов); 2) очень трудоемкая работа по созданию баз данных элементов речи (это кропотливая, монотонная работа на многие месяцы). Для того чтобы разобраться в том, что такое микроволны, рассмотрим в качестве примера аллофон гласного. Возьмем следующий комбинаторный аллофон: гласная [а], в левом контексте которой [п], а в правом – [к]. Рассмотрим осциллограмму этого аллофона (рис. 3.23).

Рисунок 3.23. Микроволны на осциллограмме аллофона [а]

Содержание