80. Структурно-экспертные методы распознавания речи. Экспертный подход к фонемному распознаванию речи.
Выбор метода распознавания речи во многом зависит от того, каким образом описывается входной речевой сигнал в системе автоматического распознавания речи. Таким образом определяется пространство признаков речевого сигнала, по которым в дальнейшем его необходимо классифицировать. Кроме того, очень важно знать соотношения между указанными признаками. Все это возможно учитывать в рамках структурно-экспертных методов, в основу которых положены знания (рис. 5.16) о структуре речевого сигнала, а также экспертные знания о закономерностях образования речевого сигнала и естественном языке. Особенно важным это становится при разработке дикторонезависимых систем автоматического распознавания речи, а также систем распознавания речи неограниченного словаря. Рассмотрим указанный метод более подробно.
Экспертный подход к фонемному распознаванию речи.
Важность и необходимость использования фонетических или лингвистических знаний, а также умение отделять собственно лингвистическую информацию от экстралингвистической не вызывает сомнения. Одним из интересных и перспективных подходов, осуществляющих фонемное распознавание речи с позиций акустико-фонетического декодирования, является экспертный подход. Экспертный подход основан на методе извлечения знаний в процессе "чтения" динамических спектрограмм неизвестного речевого сигнала фонетистом-экспертом. Динамическая спектрограмма отражает фонетическую информацию о речевом сигнале в виде трехмерной спектральной картины (частота – время – интенсивность). Моделирование работы человека-эксперта при интерпретации речевых спектрограмм является основополагающим фактором при разработке данного подхода. Один из ведущих исследователей в этой области В.В.Зу отметил, что чтение спектрограмм дает нам "доказательство существования" того, что высоконадежное фонетическое декодирование речевых спектров является достижимым, а "знания, используемые при чтении спектрограмм, являются потенциально передаваемыми как людям, так и машинам".
Рассмотрим более подробно процедуру акустико-фонетического декодирования динамических спектрограмм, в которой можно выделить три основных этапа.
На первом этапе выделяются "исходные видимые объекты" (ИВО). Примерами ИВО могут служить:
• тон – визуальный аналог периодичности речевого сигнала, который проявляется на спектрограмме в виде ярко выраженных затемненных вертикальных линий, равноотстоящих друг от друга;
• шум – неравномерное затемнение в различных частях спектра, что является признаком фрикативности и др.
Второй этап заключается в фонетической интерпретации полученных сегментов и описывается в виде правил вывода, в основе которых лежат так называемые акустические ключи (АК). АК формируются на базе выделенных ИВО и представляют собой сведения о наличии/отсутствии ИВО, об отношениях следования между ними, а также сведения о временных, энергетических и частотных модификациях ИВО с учетом их соотносительной значимости. База акустико-фонетических знаний, включающая информацию об АК и основанных на них правилах вывода, имеет первоочередное значение при разработке экспертной системы (ЭС). База знаний (БЗ) состоит из набора правил, каждое из которых описывает единственный обоснованный вывод. Эти правила обеспечивают набор единиц знания, а не последовательность действий. Сложный процесс экспертизы необходимо разбить на большое количество относительно более простых единиц знания, каждая из которых описывается с помощью так называемых порождающих правил общего вида: если "условие", то "следствие". Таким образом, каждое правило состоит из посылки и следствия, которые являются некоторыми утверждениями.
Третий этап связан с учетом законов языка, которые допускают или запрещают различные фонемные последовательности. На выходе данного этапа мы получаем фонетические гипотезы, состоящие из одного или более возможных фонемных решений для каждого сегмента. Сократить количество этих решений позволяет применение правил фонетической сочетаемости исследуемого языка, т.е. контекстуальных правил более высокого уровня, чем те, что описывались выше. В работе (Zue V.W..1986art-An_expert_S) указывается, что фонетический эксперт принимает решение о допустимости фонемных последовательностей, а также может переводить фонемную последовательность в орфографическую запись, применяя морфологические правила словообразования. Анализ процесса чтения динамических спектрограмм позволяет сделать следующие выводы:
• значительный объем фонетической информации можно выделить из самого речевого сигнала;
• чтение спектрограмм основано на распознавании и объединении большого количества акустических признаков, причем, некоторые из них идентифицируются сравнительно просто (признаки способа образования), в то время как для идентификации других необходимо обязательно учитывать соответствующий контекст (признаки места образования);
• в основе декодирования спектрограмм лежат вполне определенные эксплицитные правила;
• эксперименты по чтению спектрограмм доказывают возможность достижения высококачественного распознавания речи при активном использовании лингвистических знаний.
- 1. Фонетическое членение речи.
- 2. Звуки. Артикуляционный аспект звуков речи.
- 3. Артикуляционная характеристика звуков.
- 4. Гласные звуки. Классификация гласных звуков.
- 5. Согласные звуки. Классификация согласных звуков.
- 6. Акустический аспект звуков речи. Качественные характеристики звуков.
- 7. Функциональный аспект звуков речи (фонология). Понятие о фонеме.
- 8. Система фонем в современном русском языке.
- 9. Фонологические позиции. Сильные и слабые фонемы.
- 10. Позиционные чередования гласных фонем. Количественная и качественная редукция гласных фонем.
- 11. Позиционные чередования согласных фонем. Ассимиляция и диссимиляция по глухости/звонкости и по твердости/мягкости.
- 12. Исторические чередования фонем.
- 13. Падение редуцированных гласных фонем и последствия этого явления.
- 14. Чередования, связанные с историей носовых звуков в древнерусском языке.
- 15. Палатализация заднеязычных.
- 17. Фонетическая транскрипция. Фонематическая транскрипция
- 18. Слог. Слогораздел. Типы слогов.
- 19. Фонетическое слово. Ударение
- 20. Речевой такт. Интонация
- 21. Ударение. Интонационные конструкции
- 21. Фраза. Интонация
- 22. Понятие об орфоэпии
- 23. Основные правила русского литературного произношения.
- 24. Произношение гласных под ударением. Произношение безударных гласных.
- 25. Произношение отдельных согласных звуков.
- 26. Произношение групп согласных.
- 27. Произношение некоторых грамматических форм.
- 28. Произношение некоторых аббревиатур. Особенности произношения иноязычных слов.
- 29. Трудные случаи усвоения ударения в русском языке.
- 30. Развитие русского литературного произношения.
- 31. Грамматическое кодирование
- 32. Семантическое кодирование. Двухаргументные (временные признаки): причинность.
- 33. Семантическое кодирование. Двухаргументные (временные признаки): следствие, результат, цель.
- 34. Семантическое кодирование. Двухаргументные (временные признаки): превращение, изменение
- 35. Семантическое кодирование. Двухаргументные (временные признаки): взаимодействие, группировка, общность, объединение
- 36. Семантическое кодирование. Двухаргументные (временные признаки): разделение, влияние, условие, вхождение.
- 37. Семантическое кодирование. Двухаргументные (временные признаки): соответствие, управление, подчинение, зависимость.
- 38. Семантическое кодирование. Одноаргументные (постоянные признаки):свойство, необходимость, возможность, вероятность, есть, нет.
- 39. Семантическое кодирование. Одноаргументные (постоянные признаки): истинность, ложность.
- Семантический код. Его цели. Предназначение. Принцип построения. Возможности.
- Предназначение семантического кода. Термин «смысл».
- Предназначение семантического кода. Текст. Информация. Гипертекст в освоении информации.
- 43. Грамматический и семантический анализ при семантическом кодировании.
- 44. Русский семантический словарь сочетаемости и ассоциативный словарь при семантическом кодировании.
- Предназначение семантического кода. Системный изоморфизм.
- Предназначение семантического кода. Принцип необходимого и достаточного.
- Предназначение семантического кода. Связность классов и подклассов
- 48. Предназначение семантического кода. Принцип иерархичности/ неиерархичности.
- 49. Предназначение семантического кода. Системная метафоричность.
- 50. Ситуативный (ситуационный) семантический код.
- 51. Семантическое кодирование. Выравнивающе-толковательный код. Матрешный код.
- 52. Основные задачи и ключевые понятия речевого интерфейса.
- 53. Исторический обзор проблемы распознавания и синтеза речи.
- 54. Системы автоматического синтеза речи. Практические приложения речевого интерфейса.
- 55. Системы автоматического распознавания речи. Практические приложения речевого интерфейса.
- 56. Лингвистические основы речевого интерфейса. Использование лингвистики в реализации речевых систем.
- 57. Структура речевого сигнала. Анализ и синтез. Спектрально-временные характеристики речевого сигнала.
- 58. Информационная и модуляционная структура речевого сигнала.
- 59. Методы синтеза речевого сигнала. Обобщенные математические модели описания речевых сигналов.
- 60. Методы синтеза речевого сигнала. Геометрическая модель речевого тракта.
- 61. Методы синтеза речевого сигнала. Формантная модель.
- 62. Компиляционные методы синтеза речевого сигнала.
- 63. Методы анализа речевого сигнала.
- 64. Метод цифровой фильтрации речевого сигнала. Спектральный анализ с использованием алгоритмов бпф. Метод цифровой фильтрации
- Спектральный анализ с использованием алгоритмов бпф
- 65. Спектральный анализ на основе линейного предсказания. Формантно-параметрическое описание речевого сигнала. Спектральный анализ на основе линейного предсказания
- Формантно-параметрическое описание речевого сигнала
- 66. Метод кепстральных коэффициентов. Особенности восприятия речи. Свойства рецептивного восприятия речи человеком. Метод кепстральных коэффициентов
- 67. Свойства рецептивного восприятия речевых сигналов. Природа слуховых (фонетических) признаков речевого сигнала. Свойства рецептивного восприятия речевых сигналов
- Природа слуховых (фонетических) признаков речевого сигнала
- 68. Свойства восприятия минимальных смыслоразличительных элементов речи
- 69. Синтез речи по тексту. Структура синтезатора речи по тексту.
- Структура синтезатора речи по тексту Ключевые понятия:
- 70. Лингвистический процессор. Предварительная обработка текста. Пофразовая обработка текста.
- Предварительная обработка текста
- Пофразовая обработка текста
- 71. Пословная обработка теста. Пример работы лингвистического процессора. Пословная обработка текста
- Пример работы лингвистического процессора
- 72. Просодический процессор
- 73.Фонетический процессор. Артикуляторно-фонетический процессор. Формантный фонетический процессор.
- 74. Аллофонный фонетический процессор. Акустический процессор.
- 75. Аппроксимация геометрии речевого такта. Акустический процессор, основанный на компиляционных методах синтеза речи.
- 76. Классификация систем автоматического распознавания речи. Методы автоматического распознавания речи.
- 77. Классификация методов распознавания речи.
- 78. Метод динамического программирования.
- 79. Метод скрытых марковских моделей.
- 80. Структурно-экспертные методы распознавания речи. Экспертный подход к фонемному распознаванию речи.
- 81. Проблемы обучения в распознавании речи и методы создания эталонных слов. Метод создания многокластерных эталонов речи.
- 82.Проблема плотных упаковок. Формульное представление знаний как вариант плотных упаковок.