81. Проблемы обучения в распознавании речи и методы создания эталонных слов. Метод создания многокластерных эталонов речи.
Важнымэтапомработысистемыавтоматическогораспознаванияречиявляетсяпроцедураобучения.Обучение САРР заключается в формировании акустических эталонов элементов речи на основе информации, полученной от конкретного диктора. На рис. Представлена обобщенная структура модели распознавания речи с обучением. Процедура обучения включает два этапа:
• предварительное обучение;
• дообучение.
Акустические эталоны разных уровней (фонем, дифонов, слогов, слов, словосочетаний) формируются в процессе предварительного обучения, которое обеспечивает настройку системы на используемый словарь и голос диктора. Как правило, эталоны элементов речи, подлежащих распознаванию, создаются предварительно до начала работы системы. Базовый набор эталонов слов произвольного словаря при распознавании речи может быть сформирован как путем синтеза последовательности аллофонов, соответствующих текстам слов, с их дальнейшей параметризацией, так и путёмстатистическойобработкиакустическихпараметровсловобучающейвыборки. Однако практическое использование систем дикторонезависимого распознавания речи показывает невозможность создания в процессе предварительного обучения одного единственного представительного эталона на каждое слово распознаваемого словаря, даже если эталоны слов создаются путём статистической обработки речевых образцов многих дикторов. Это обусловлено тем, что акустические характеристики речи разных дикторов могут значительно варьироваться. Устранение отрицательного эффекта от этих различий достигается путём адаптации системы распознавания к конкретным пользователям, которая может быть реализована одним из способов:
• быстрая подстройка под голос пользователя по ограниченному словарю “парольных” фраз;
• текущая адаптация к голосу пользователя в процессе работы системы;
• создание базы данных акустических эталонов многих дикторов;
• кластеризация дикторов по особенностям голоса в группы (кластеры).
В моделях распознавания речи произвольного словаря предполагается использовать не только процедуру предварительного обучения, но и процедуру дообучения, целью которой является создание представительных многокластерныхэталоновслов в процессе работы системы автоматического распознавания речи.
Метод создания многокластерных эталонов слов основан на коллекционировании речевых реализаций слов многих дикторов в процессе работы системы распознавания речи и их объединении по особенностям голоса в группы (кластеры). Кластеризация речевых реализаций учебной выборки осуществляется путем расчета матрицы взаимных расстояний между реализациями и определения двоичной матрицы принадлежности, которая минимизируется построчно при помощи стандартных методов поиска минимальных дизъюнктивных нормальных форм булевой алгебры.
Метод создания многокластерных эталонов слов основан на коллекционировании речевых реализаций слов многих дикторов в процессе работы системы распознавания речи и их объединении по особенностям голоса в группы (кластеры). Кластеризация речевых реализаций учебной выборки осуществляется путем расчета матрицы взаимных расстояний между реализациями и определения двоичной матрицы принадлежности, которая минимизируется построчно при помощи стандартных методов поиска минимальных дизьюктивных нормальных форм булевой алгебры.
Рассмотрим алгоритм создания многокластерного эталона слова, обучающая выборка которого состоит из ограниченного числа реализаций. С помощью модифицированного ДП-метода рассчитывается матрица взаимных расстояний между реализациями учебной выборки . Далее вычисляется столбцовая матрица, элементы которой характеризуют расстояния между соответствующими реализациями обучающей выборки “своего” слова и одной из реализаций обучающих выборок “чужих слов”, которые являются минимальными. Определяется матрица принадлежностимежду реализациями обучающей выборки:
(3.31)
где i - номер строки матрицы, соответствующий номеру одному из предполагаемых кластеров эталона слова; j - номер столбца матрицы, соответствующий номеру реализации обучающей выборки слова.
Из (3.31) видно, что функция принадлежности больше 0 в том случае, если расстояние от i -ой реализации обучающей выборки слова до j -ой реализации обучающей выборки этого же слова меньше расстояния от той же реализации до любой реализации любого другого слова. Матрица принадлежности не всегда симметрична, т.е.. Вполне возможен случай, когда i -ая реализация принадлежит к j -ой, а j -ая реализация не принадлежит к i -ой.
На заключительном этапе определяется минимальное число кластеров, достаточное для того, чтобы на всех реализациях обучающей выборки данного слова значения функции принадлежности были равны 1. Для этого матрица принадлежности заменяется двоичной матрицей принадлежности, элементы которой определяются по формуле:
(3.32)
Далее двоичная матрица принадлежности минимизируется построчно при помощи стандартных методов поиска минимальных дизъюнктивных нормальных форм булевой алгебры. При этом номера строк полученной матрицы соответствуют реализациям обучающей выборки, которые и являются кластерами эталона данного слова. Радиус каждого кластера равен соответствующему элементу столбцовой матрицы .
- 1. Фонетическое членение речи.
- 2. Звуки. Артикуляционный аспект звуков речи.
- 3. Артикуляционная характеристика звуков.
- 4. Гласные звуки. Классификация гласных звуков.
- 5. Согласные звуки. Классификация согласных звуков.
- 6. Акустический аспект звуков речи. Качественные характеристики звуков.
- 7. Функциональный аспект звуков речи (фонология). Понятие о фонеме.
- 8. Система фонем в современном русском языке.
- 9. Фонологические позиции. Сильные и слабые фонемы.
- 10. Позиционные чередования гласных фонем. Количественная и качественная редукция гласных фонем.
- 11. Позиционные чередования согласных фонем. Ассимиляция и диссимиляция по глухости/звонкости и по твердости/мягкости.
- 12. Исторические чередования фонем.
- 13. Падение редуцированных гласных фонем и последствия этого явления.
- 14. Чередования, связанные с историей носовых звуков в древнерусском языке.
- 15. Палатализация заднеязычных.
- 17. Фонетическая транскрипция. Фонематическая транскрипция
- 18. Слог. Слогораздел. Типы слогов.
- 19. Фонетическое слово. Ударение
- 20. Речевой такт. Интонация
- 21. Ударение. Интонационные конструкции
- 21. Фраза. Интонация
- 22. Понятие об орфоэпии
- 23. Основные правила русского литературного произношения.
- 24. Произношение гласных под ударением. Произношение безударных гласных.
- 25. Произношение отдельных согласных звуков.
- 26. Произношение групп согласных.
- 27. Произношение некоторых грамматических форм.
- 28. Произношение некоторых аббревиатур. Особенности произношения иноязычных слов.
- 29. Трудные случаи усвоения ударения в русском языке.
- 30. Развитие русского литературного произношения.
- 31. Грамматическое кодирование
- 32. Семантическое кодирование. Двухаргументные (временные признаки): причинность.
- 33. Семантическое кодирование. Двухаргументные (временные признаки): следствие, результат, цель.
- 34. Семантическое кодирование. Двухаргументные (временные признаки): превращение, изменение
- 35. Семантическое кодирование. Двухаргументные (временные признаки): взаимодействие, группировка, общность, объединение
- 36. Семантическое кодирование. Двухаргументные (временные признаки): разделение, влияние, условие, вхождение.
- 37. Семантическое кодирование. Двухаргументные (временные признаки): соответствие, управление, подчинение, зависимость.
- 38. Семантическое кодирование. Одноаргументные (постоянные признаки):свойство, необходимость, возможность, вероятность, есть, нет.
- 39. Семантическое кодирование. Одноаргументные (постоянные признаки): истинность, ложность.
- Семантический код. Его цели. Предназначение. Принцип построения. Возможности.
- Предназначение семантического кода. Термин «смысл».
- Предназначение семантического кода. Текст. Информация. Гипертекст в освоении информации.
- 43. Грамматический и семантический анализ при семантическом кодировании.
- 44. Русский семантический словарь сочетаемости и ассоциативный словарь при семантическом кодировании.
- Предназначение семантического кода. Системный изоморфизм.
- Предназначение семантического кода. Принцип необходимого и достаточного.
- Предназначение семантического кода. Связность классов и подклассов
- 48. Предназначение семантического кода. Принцип иерархичности/ неиерархичности.
- 49. Предназначение семантического кода. Системная метафоричность.
- 50. Ситуативный (ситуационный) семантический код.
- 51. Семантическое кодирование. Выравнивающе-толковательный код. Матрешный код.
- 52. Основные задачи и ключевые понятия речевого интерфейса.
- 53. Исторический обзор проблемы распознавания и синтеза речи.
- 54. Системы автоматического синтеза речи. Практические приложения речевого интерфейса.
- 55. Системы автоматического распознавания речи. Практические приложения речевого интерфейса.
- 56. Лингвистические основы речевого интерфейса. Использование лингвистики в реализации речевых систем.
- 57. Структура речевого сигнала. Анализ и синтез. Спектрально-временные характеристики речевого сигнала.
- 58. Информационная и модуляционная структура речевого сигнала.
- 59. Методы синтеза речевого сигнала. Обобщенные математические модели описания речевых сигналов.
- 60. Методы синтеза речевого сигнала. Геометрическая модель речевого тракта.
- 61. Методы синтеза речевого сигнала. Формантная модель.
- 62. Компиляционные методы синтеза речевого сигнала.
- 63. Методы анализа речевого сигнала.
- 64. Метод цифровой фильтрации речевого сигнала. Спектральный анализ с использованием алгоритмов бпф. Метод цифровой фильтрации
- Спектральный анализ с использованием алгоритмов бпф
- 65. Спектральный анализ на основе линейного предсказания. Формантно-параметрическое описание речевого сигнала. Спектральный анализ на основе линейного предсказания
- Формантно-параметрическое описание речевого сигнала
- 66. Метод кепстральных коэффициентов. Особенности восприятия речи. Свойства рецептивного восприятия речи человеком. Метод кепстральных коэффициентов
- 67. Свойства рецептивного восприятия речевых сигналов. Природа слуховых (фонетических) признаков речевого сигнала. Свойства рецептивного восприятия речевых сигналов
- Природа слуховых (фонетических) признаков речевого сигнала
- 68. Свойства восприятия минимальных смыслоразличительных элементов речи
- 69. Синтез речи по тексту. Структура синтезатора речи по тексту.
- Структура синтезатора речи по тексту Ключевые понятия:
- 70. Лингвистический процессор. Предварительная обработка текста. Пофразовая обработка текста.
- Предварительная обработка текста
- Пофразовая обработка текста
- 71. Пословная обработка теста. Пример работы лингвистического процессора. Пословная обработка текста
- Пример работы лингвистического процессора
- 72. Просодический процессор
- 73.Фонетический процессор. Артикуляторно-фонетический процессор. Формантный фонетический процессор.
- 74. Аллофонный фонетический процессор. Акустический процессор.
- 75. Аппроксимация геометрии речевого такта. Акустический процессор, основанный на компиляционных методах синтеза речи.
- 76. Классификация систем автоматического распознавания речи. Методы автоматического распознавания речи.
- 77. Классификация методов распознавания речи.
- 78. Метод динамического программирования.
- 79. Метод скрытых марковских моделей.
- 80. Структурно-экспертные методы распознавания речи. Экспертный подход к фонемному распознаванию речи.
- 81. Проблемы обучения в распознавании речи и методы создания эталонных слов. Метод создания многокластерных эталонов речи.
- 82.Проблема плотных упаковок. Формульное представление знаний как вариант плотных упаковок.