Шпора по ЕЯИС, 2ой семестр (Головня) [8282 вопросов]

59. Методы синтеза речевого сигнала. Обобщенные математические модели описания речевых сигналов.

«Речевой сигнал представляет случайный нестационарный процесс, удовлетворительное стохастическое описание которого в настоящее время неизвестно. В качестве рабочей гипотезы, позволяющей приблизиться к математическому описанию речевого сигнала, часто принимают гипотезу локальной стационарности. Согласно этой гипотезе, стохастический процесс, описывающий речевой сигнал, считается стационарным на кратковременных интервалах (сегментах), характерная длительность которых зависит от сложности выбранной стационарной модели. Таким образом, предполагается, что внутри сегмента речевой сигнал описывается некоторой стационарной моделью, а переход от одной стационарной модели к другой (или изменение значений параметров модели) осуществляется на границе соседних сегментов. В качестве простого примера реализации этой гипотезы можно привести модель синтеза речевого сигнала посредством его прямого восстановления из дискретной (обычно равномерной) выборки или импульсно-кодовой модуляции сигнала (ИКМ–модель. В ИКМ–модели речевой сигнал аппроксимируется постоянной величиной на интервалах длительностью , где - частота дискретизации сигнала, которую выбирают выше удвоенной максимальной частоты спектра речевого сигнала. Синтезированный речевой сигнал в этом случае можно представить в виде стохастического процесса с независимыми приращениями

ИКМ–модель позволяет получить высокое качество синтезированного речевого сигнала при выборе частоты дискретизации fд > 104 Гц. Существенным недостатком ИКМ–модели является довольно большой объем априорной информации (знание конкретной реализации дискретного случайного процесса { хn}, n = 0,1, ...), необходимый для определения речевого сигнала. Преодолеть указанный недостаток ИКМ – модели можно путем увеличения длительности сегментов стационарности за счет некоторого усложнения модели, описывающей речевой сигнал внутри сегмента. Известной моделью более высокого уровня сложности по сравнению с ИКМ–моделью является ЛПК–модель речевого сигнала или метод линейного предиктивного. Сущность ЛПК–модели состоит в следующем:

Речевой сигнал компилируется (т.е. последовательно составляется) из сегментов длительностью , где Гц - частота сегментации, внутри которых речевой сигнал аппроксимируется (моделируется) некоторой функцией, характеристики которой определяются значением вектора параметров .
В качестве модели речевого сигнала на сегменте стационарности обычно выбирается модель авторегрессии – скользящего среднего (АРСС):
По заданной реализации дискретного векторного случайного процесса , гдe = и произвольной реализации белого шума синтезируют речевой сигнал

При реализации ЛПК–модели обычно принимают М, К ~ 10. Таким образом, вектор параметров , занимая объем порядка десяти дискретных значений ИКМ–сигнала, представляет речевой сигнал на сегменте стационарности порядка ста интервалов дискретизации. Следует отметить, однако что ЛПК–модель не позволяет получить высокое качество синтезированного речевого сигнала при существенном (>10) выигрыше в плотности или скорости передачи информации по сравнению с ИКМ–моделью». «Довольно близкой к естественному представлению является фонетическая модель речевого сигнала. Согласно этой модели речевой сигнал можно представить в виде некоторой последовательности элементарных или базисных звуков, которые для речевого сигнала получили название фонем. В русском языке, например, выделяют 42 фонемы которые составляют словарь или алфавит фонем русского языка.

Содержание