72. Просодический процессор
Как видно из структуры синтезатора речи (рис. 4.1), после обработки текста лингвистическим процессором, полученный размеченный фонемный текст поступает на вход двух процессоров: просодического и фонетического. Этапы работы просодического процессора
Итак, на вход просодического процессора поступает размеченный фонемный текст. При этом, так как просодическим процессором обрабатываются синтагмы, то указанный текст может поступать на вход в виде отдельных синтагм. Задача просодического процессора заключается в генерации физических величин, которые создают интонационное оформление речи. Напомним, что к этим физическим величинам относятся:
• F0 – частота основного тона или мелодика речи;
• А – сила звука или амплитуда, которая связана с понятием ударения;
• Т – длительность звуков, ответственная за создание ритмической структуры речи.
Таким образом мы получаем просодически размеченный фонемный текст.
Напомним, что входной орфографический текст был разбит лингвистическим процессором на фразы, а фразы – на синтагмы. Кроме того, были проставлены все ударения. Просодический процессор работает только с синтагмами. Следовательно, на вход процессора поступает синтагма, и дальше она начинает обрабатываться. Цель просодического процессора заключается в формировании значений трех перечисленных выше физических параметров в зависимости от времени: F0(t), T(t), A(t) – так, чтобы любому моменту времени речевого высказывания соответствовали текущая высота голоса, текущая длительность и текущая амплитуда. Это то, что мы будем иметь на выходе просодического процессора. Указанный набор параметров должен быть сформирован для каждой синтагмы.
Работа просодического процессора включает ряд этапов, которым на представленной схеме соответствуют блоки. Первый блок обозначает этап разметки интонационного типа синтагмы. Типология синтагм была рассмотрена в подразделе 2.4. Кроме того, как было продемонстрировано выше, интонационная разметка синтагм может быть осуществлена на этапе пофразовой обработки текста в лингвистическом процессоре. Поэтому данный блок может быть реализован как в рамках лингвистического процессора, так и в рамках просодического процессора. Здесь, во избежание дублирования, данный этап рассматриваться не будет.
Следующий блок просодического процессора – блок разметки синтагм на акцентные группы. Синтагма состоит из фонетических слов, и каждое слово отмечено ударением. Напомним, что для фонетических слов выделяется два типа ударений:
• сильное (основное, полное) ударение (+);
• слабое (побочное, частичное) ударение (-).
В синтагме столько акцентных групп (АГ), сколько имеется сильных ударений. Если в синтагме есть слова, помеченные слабыми ударениями, то они присоединяются к словам с сильным ударением в одну акцентную группу.
Для полноты изложения вернемся к рассмотренному примеру и полученному в результате размеченному фонемному тексту:
«Вы- /(,)## ка-к в’и+дна /(,)## йэщ'о- н’ипан’има+ити /(,)## што- ч’илав’э+ка магл’и+ жда+т’ друз’йа+ /(,)## айиво- апазда+н’ийэ нацэ+лыйэ су+тк’и /(,-)# растра+иваит все- пла+ны /(,)## имо-жыт павле+ч’ засабо-й /(,-)# ма+ссу ниудо+пств /(.)###
– А+х /(!)### Та-к де+ла бы+ла вэ+там /(?)###
– Во-т и+минна /(..)####»
В данном тексте имеются синтагмы, включающие несколько слов с сильным ударением. Поэтому они должны быть разбиты на акцентные группы. Для обозначения границы акцентной группы по-прежнему будем использовать знак «//». В результате получим:
«Вы- /(,)## ка-к в’и+дна /(,)## йэщ'о- н’ипан’има+ити /(,)## што- ч’илав’э+ка // магл’и+ // жда+т’ друз’йа+ /(,)## айиво- апазда+н’ийэ // нацэ+лыйэ // су+тк’и /(,-)# растра+иваит // все- пла+ны /(,)## имо-жыт павле+ч’ засабо-й /(,-)# ма+ссу // ниудо+пств /(.)###
– А+х /(!)### Та-к де+ла // бы+ла // вэ+там /(?)###
– Во-т и+минна /(..)####»
Таким образом, из данного примера видно, что акцентная группа – это необязательно одно фонетическое слово. АГ может включать и несколько слов, объединенных главным ударением. Это принципиально важно для задания мелодического и ритмического контуров. Следует также отметить, что просодический портрет (см. ниже) описывает интонацию синтагмы независимо от числа входящих в нее акцентных групп. Если их число больше трех, то все акцентные группы между начальной и конечной являются срединными. Если акцентных групп две, то первая из них начальная, а вторая – конечная. Если акцентная группа одна, то она конечная.
Перейдем к следующему блоку – разметке на элементы акцентных групп (ЭАГ). Это необходимо для того, чтобы нарисовать интонационные контуры акцентных групп. Напомним, что существует три ЭАГ:
• ядро – главный элемент,
• предъядро – находится непосредственно перед ядром;
• заядро – после ядра.
Вспомним правила разбивки акцентной группы на элементы: ядро является главной ударной гласной слова, заядро – это все звуки справа от ядра, а предъядро – все звуки слева от ядра. Получается, что заядро и предъядро могут содержать различное количество звуков вплоть до их отсутствия.
Далее можно сформировать физические параметры просодики или интонации: частоту основного тона, длительность и интенсивность. Ядро, предъядро и заядро могут быть совершенно разной длительности. Интонационный тип синтагмы определяется путем задания эталонных просодических кривых для определенных акцентных групп. Совокупность просодических характеристик, с помощью которых описывается интонационный тип синтагмы, называется портретом интонемы или портретом просодемы. Портреты просодем задаются набором контуров мелодики, ритмики и энергетики, которые складываются из нормированных контуров входящих в нее акцентных групп: начальной, конечной и срединной.
Задача формирования интонационных контуров синтагм решается на последнем этапе просодического процессора в блоке формирования физических характеристик просодики речи.
Рассмотрим сначала процесс формирования интонационного контура частоты основного тона F0. Для каждого интонационного типа можно задать определенный рисунок или контур изменения частоты основного тона. Акцентная группа описывается одним и тем же контуром независимо от числа слогов, входящих в нее. Если число слогов в предъядре или заядре больше трех, то добавляются срединные слоги. При меньшем числе слогов из рассмотрения исключаются вначале срединный слог, затем начальный и конечный. Если предъядро иди заядро отсутствуют, то их функцию берет соответственно левый или правый сегмент.
Например, интонация завершенности начинается с средне высокой частоты, затем на ядре падает в область средне низкой частоты и завершается в области низкой частоты. Пусть, например, на вопрос «Это хорошо?» отвечают утвердительно: «Хорошо». При этом в конце фразы падает голос. Выделим в данной фразе (которая, отметим, состоит всего из одного слова) элементы акцентной группы:
• предъяро: «хорош»;
• ядро: «о» - последний ударный слог;
• заядро: «о».
Здесь есть как бы две буквы «о», причем на последнем «о» падает интонация. Интонация вопроса в слове «хорошо» выглядит следующим образом: на ядре – подъем тона, а на заядре – падение.
Если рассмотреть аналогичный пример для слова «качественно», то падение тона происходит после ударного «а» и все остальные звуки звучат на низком тоне.
Для того чтобы интонировать произвольные фразы, нельзя придумать конечный набор каких-то кривых. Это можно сделать только путем трансформации идеальных интонационных портретов. В приведенных в подразделе 2.4 четырех основных интонационных контурах представлены интонации вопроса, завершения и восклицания, в которых на ядре всегда бывает резкий подъем. Указанные три интонационных контура накладываются на конечную акцентную группу фразы.
Показанные на рис. 2.3 (подраздел 2.4) четыре кривые – это основные интонационные кривые. Что-то подобное (подобная трансформация) происходит для всех 16-ти рассмотренных в разделе 2 интонационных типов.
Рассмотрим примеры формирования интонационных контуров незавершенности. Это происходит практически всегда, когда синтагма не является конечной. Чаще всего незавершенность проявляется в том, что высота голоса как бы поднимается и потом опускается на низкий уровень частоты.
Интонационные портреты на рис. 2.3 характерны для конечной акцентной группы. Чтобы полностью охарактеризовать сложную синтагму, подобные портреты должны быть нарисованы для срединной и начальной акцентных групп. Разнообразие интонационных контуров для начальной и срединной АГ значительно меньше, чем для конечной АГ (рис. 4.9).
Как правило, на срединной АГ идет подготовка к конечной. Начальная АГ не имеет значимых изменений. Интонационный тип синтагмы определяется по последней АГ, и при синтезе речи основное внимание уделяется моделированию интонационных характеристик этой акцентной группы.
Рассмотрим теперь процесс формирования параметров A и T. Формирование мелодического контура (F0(t)) – наиболее сложная и важная задача. Формирование контуров длительности (T(t)) и интенсивности (амплитуды A(t)) – менее сложная задача. Вариативность этих контуров гораздо меньше. На рис. 4.10 в обобщенном виде представлено поведение всех интонационных типов для амплитуды (An) и длительности (Тn) в зависимости от нормированного времени (tn).
Для длительности звука (рис. 4.10,б) можно определить соотношение предъядра, ядра и заядра как соотношение 2: 4 :1. Ядерный звук гласной обязательно длинный, предшествующие звуки средней длины, а последние звуки, как правило, проговариваются скороговоркой. Примерно такая же картина для интенсивности или громкости звука (рис. 4.10,а), т.е. наиболее громким является главный ударный гласный, предударные звуки – менее громкие, а самые тихие звуки – заударные.
В завершение рассмотрения работы просодического процессора приведем иллюстрацию портрета интонемы общего вопроса (рис. 4.11) [16] (Попов Э.В.ред.1990спр-ИскусИ-К1). На данном рисунке изображены сразу три контура: мелодический, интенсивности и длительности. Подобные портреты используются формирователем параметров F0(t), T(t), A(t) для всех интонационных типов.
Рисунок 4.11. Портрет интонемы общего вопроса
- 1. Фонетическое членение речи.
- 2. Звуки. Артикуляционный аспект звуков речи.
- 3. Артикуляционная характеристика звуков.
- 4. Гласные звуки. Классификация гласных звуков.
- 5. Согласные звуки. Классификация согласных звуков.
- 6. Акустический аспект звуков речи. Качественные характеристики звуков.
- 7. Функциональный аспект звуков речи (фонология). Понятие о фонеме.
- 8. Система фонем в современном русском языке.
- 9. Фонологические позиции. Сильные и слабые фонемы.
- 10. Позиционные чередования гласных фонем. Количественная и качественная редукция гласных фонем.
- 11. Позиционные чередования согласных фонем. Ассимиляция и диссимиляция по глухости/звонкости и по твердости/мягкости.
- 12. Исторические чередования фонем.
- 13. Падение редуцированных гласных фонем и последствия этого явления.
- 14. Чередования, связанные с историей носовых звуков в древнерусском языке.
- 15. Палатализация заднеязычных.
- 17. Фонетическая транскрипция. Фонематическая транскрипция
- 18. Слог. Слогораздел. Типы слогов.
- 19. Фонетическое слово. Ударение
- 20. Речевой такт. Интонация
- 21. Ударение. Интонационные конструкции
- 21. Фраза. Интонация
- 22. Понятие об орфоэпии
- 23. Основные правила русского литературного произношения.
- 24. Произношение гласных под ударением. Произношение безударных гласных.
- 25. Произношение отдельных согласных звуков.
- 26. Произношение групп согласных.
- 27. Произношение некоторых грамматических форм.
- 28. Произношение некоторых аббревиатур. Особенности произношения иноязычных слов.
- 29. Трудные случаи усвоения ударения в русском языке.
- 30. Развитие русского литературного произношения.
- 31. Грамматическое кодирование
- 32. Семантическое кодирование. Двухаргументные (временные признаки): причинность.
- 33. Семантическое кодирование. Двухаргументные (временные признаки): следствие, результат, цель.
- 34. Семантическое кодирование. Двухаргументные (временные признаки): превращение, изменение
- 35. Семантическое кодирование. Двухаргументные (временные признаки): взаимодействие, группировка, общность, объединение
- 36. Семантическое кодирование. Двухаргументные (временные признаки): разделение, влияние, условие, вхождение.
- 37. Семантическое кодирование. Двухаргументные (временные признаки): соответствие, управление, подчинение, зависимость.
- 38. Семантическое кодирование. Одноаргументные (постоянные признаки):свойство, необходимость, возможность, вероятность, есть, нет.
- 39. Семантическое кодирование. Одноаргументные (постоянные признаки): истинность, ложность.
- Семантический код. Его цели. Предназначение. Принцип построения. Возможности.
- Предназначение семантического кода. Термин «смысл».
- Предназначение семантического кода. Текст. Информация. Гипертекст в освоении информации.
- 43. Грамматический и семантический анализ при семантическом кодировании.
- 44. Русский семантический словарь сочетаемости и ассоциативный словарь при семантическом кодировании.
- Предназначение семантического кода. Системный изоморфизм.
- Предназначение семантического кода. Принцип необходимого и достаточного.
- Предназначение семантического кода. Связность классов и подклассов
- 48. Предназначение семантического кода. Принцип иерархичности/ неиерархичности.
- 49. Предназначение семантического кода. Системная метафоричность.
- 50. Ситуативный (ситуационный) семантический код.
- 51. Семантическое кодирование. Выравнивающе-толковательный код. Матрешный код.
- 52. Основные задачи и ключевые понятия речевого интерфейса.
- 53. Исторический обзор проблемы распознавания и синтеза речи.
- 54. Системы автоматического синтеза речи. Практические приложения речевого интерфейса.
- 55. Системы автоматического распознавания речи. Практические приложения речевого интерфейса.
- 56. Лингвистические основы речевого интерфейса. Использование лингвистики в реализации речевых систем.
- 57. Структура речевого сигнала. Анализ и синтез. Спектрально-временные характеристики речевого сигнала.
- 58. Информационная и модуляционная структура речевого сигнала.
- 59. Методы синтеза речевого сигнала. Обобщенные математические модели описания речевых сигналов.
- 60. Методы синтеза речевого сигнала. Геометрическая модель речевого тракта.
- 61. Методы синтеза речевого сигнала. Формантная модель.
- 62. Компиляционные методы синтеза речевого сигнала.
- 63. Методы анализа речевого сигнала.
- 64. Метод цифровой фильтрации речевого сигнала. Спектральный анализ с использованием алгоритмов бпф. Метод цифровой фильтрации
- Спектральный анализ с использованием алгоритмов бпф
- 65. Спектральный анализ на основе линейного предсказания. Формантно-параметрическое описание речевого сигнала. Спектральный анализ на основе линейного предсказания
- Формантно-параметрическое описание речевого сигнала
- 66. Метод кепстральных коэффициентов. Особенности восприятия речи. Свойства рецептивного восприятия речи человеком. Метод кепстральных коэффициентов
- 67. Свойства рецептивного восприятия речевых сигналов. Природа слуховых (фонетических) признаков речевого сигнала. Свойства рецептивного восприятия речевых сигналов
- Природа слуховых (фонетических) признаков речевого сигнала
- 68. Свойства восприятия минимальных смыслоразличительных элементов речи
- 69. Синтез речи по тексту. Структура синтезатора речи по тексту.
- Структура синтезатора речи по тексту Ключевые понятия:
- 70. Лингвистический процессор. Предварительная обработка текста. Пофразовая обработка текста.
- Предварительная обработка текста
- Пофразовая обработка текста
- 71. Пословная обработка теста. Пример работы лингвистического процессора. Пословная обработка текста
- Пример работы лингвистического процессора
- 72. Просодический процессор
- 73.Фонетический процессор. Артикуляторно-фонетический процессор. Формантный фонетический процессор.
- 74. Аллофонный фонетический процессор. Акустический процессор.
- 75. Аппроксимация геометрии речевого такта. Акустический процессор, основанный на компиляционных методах синтеза речи.
- 76. Классификация систем автоматического распознавания речи. Методы автоматического распознавания речи.
- 77. Классификация методов распознавания речи.
- 78. Метод динамического программирования.
- 79. Метод скрытых марковских моделей.
- 80. Структурно-экспертные методы распознавания речи. Экспертный подход к фонемному распознаванию речи.
- 81. Проблемы обучения в распознавании речи и методы создания эталонных слов. Метод создания многокластерных эталонов речи.
- 82.Проблема плотных упаковок. Формульное представление знаний как вариант плотных упаковок.