logo
Шпора по ЕЯИС, 2ой семестр (Головня) [8282 вопросов]

81. Проблемы обучения в распознавании речи и методы создания эталонных слов. Метод создания многокластерных эталонов речи.

Важнымэтапомработысистемыавтоматическогораспознаванияречиявляетсяпроцедураобучения.Обучение САРР заключается в формировании акустических эталонов элементов речи на основе информации, полученной от конкретного диктора. На рис. Представлена обобщенная структура модели распознавания речи с обучением. Процедура обучения включает два этапа:

• предварительное обучение;

• дообучение.

Акустические эталоны разных уровней (фонем, дифонов, слогов, слов, словосочетаний) формируются в процессе предварительного обучения, которое обеспечивает настройку системы на используемый словарь и голос диктора. Как правило, эталоны элементов речи, подлежащих распознаванию, создаются предварительно до начала работы системы. Базовый набор эталонов слов произвольного словаря при распознавании речи может быть сформирован как путем синтеза последовательности аллофонов, соответствующих текстам слов, с их дальнейшей параметризацией, так и путёмстатистическойобработкиакустическихпараметровсловобучающейвыборки. Однако практическое использование систем дикторонезависимого распознавания речи показывает невозможность создания в процессе предварительного обучения одного единственного представительного эталона на каждое слово распознаваемого словаря, даже если эталоны слов создаются путём статистической обработки речевых образцов многих дикторов. Это обусловлено тем, что акустические характеристики речи разных дикторов могут значительно варьироваться. Устранение отрицательного эффекта от этих различий достигается путём адаптации системы распознавания к конкретным пользователям, которая может быть реализована одним из способов:

• быстрая подстройка под голос пользователя по ограниченному словарю “парольных” фраз;

• текущая адаптация к голосу пользователя в процессе работы системы;

• создание базы данных акустических эталонов многих дикторов;

• кластеризация дикторов по особенностям голоса в группы (кластеры).

В моделях распознавания речи произвольного словаря предполагается использовать не только процедуру предварительного обучения, но и процедуру дообучения, целью которой является создание представительных многокластерныхэталоновслов в процессе работы системы автоматического распознавания речи.

Метод создания многокластерных эталонов слов основан на коллекционировании речевых реализаций слов многих дикторов в процессе работы системы распознавания речи и их объединении по особенностям голоса в группы (кластеры). Кластеризация речевых реализаций учебной выборки осуществляется путем расчета матрицы взаимных расстояний между реализациями и определения двоичной матрицы принадлежности, которая минимизируется построчно при помощи стандартных методов поиска минимальных дизъюнктивных нормальных форм булевой алгебры.

Метод создания многокластерных эталонов слов основан на коллекционировании речевых реализаций слов многих дикторов в процессе работы системы распознавания речи и их объединении по особенностям голоса в группы (кластеры). Кластеризация речевых реализаций учебной выборки осуществляется путем расчета матрицы взаимных расстояний между реализациями и определения двоичной матрицы принадлежности, которая минимизируется построчно при помощи стандартных методов поиска минимальных дизьюктивных нормальных форм булевой алгебры.

Рассмотрим алгоритм создания многокластерного эталона слова, обучающая выборка которого состоит из ограниченного числа реализаций. С помощью модифицированного ДП-метода рассчитывается матрица взаимных расстояний между реализациями учебной выборки . Далее вычисляется столбцовая матрица, элементы которой характеризуют расстояния между соответствующими реализациями обучающей выборки “своего” слова и одной из реализаций обучающих выборок “чужих слов”, которые являются минимальными. Определяется матрица принадлежностимежду реализациями обучающей выборки:

(3.31)

где i - номер строки матрицы, соответствующий номеру одному из предполагаемых кластеров эталона слова; j - номер столбца матрицы, соответствующий номеру реализации обучающей выборки слова.

Из (3.31) видно, что функция принадлежности больше 0 в том случае, если расстояние от i -ой реализации обучающей выборки слова до j -ой реализации обучающей выборки этого же слова меньше расстояния от той же реализации до любой реализации любого другого слова. Матрица принадлежности не всегда симметрична, т.е.. Вполне возможен случай, когда i -ая реализация принадлежит к j -ой, а j -ая реализация не принадлежит к i -ой.

На заключительном этапе определяется минимальное число кластеров, достаточное для того, чтобы на всех реализациях обучающей выборки данного слова значения функции принадлежности были равны 1. Для этого матрица принадлежности заменяется двоичной матрицей принадлежности, элементы которой определяются по формуле:

(3.32)

Далее двоичная матрица принадлежности минимизируется построчно при помощи стандартных методов поиска минимальных дизъюнктивных нормальных форм булевой алгебры. При этом номера строк полученной матрицы соответствуют реализациям обучающей выборки, которые и являются кластерами эталона данного слова. Радиус каждого кластера равен соответствующему элементу столбцовой матрицы .