logo
Шпора по ЕЯИС, 2ой семестр (Головня) [8282 вопросов]

72. Просодический процессор

Как видно из структуры синтезатора речи (рис. 4.1), после обработки текста лингвистическим процессором, полученный размеченный фонемный текст поступает на вход двух процессоров: просодического и фонетического. Этапы работы просодического процессора

Итак, на вход просодического процессора поступает размеченный фонемный текст. При этом, так как просодическим процессором обрабатываются синтагмы, то указанный текст может поступать на вход в виде отдельных синтагм. Задача просодического процессора заключается в генерации физических величин, которые создают интонационное оформление речи. Напомним, что к этим физическим величинам относятся:

• F0 – частота основного тона или мелодика речи;

• А – сила звука или амплитуда, которая связана с понятием ударения;

• Т – длительность звуков, ответственная за создание ритмической структуры речи.

Таким образом мы получаем просодически размеченный фонемный текст.

Напомним, что входной орфографический текст был разбит лингвистическим процессором на фразы, а фразы – на синтагмы. Кроме того, были проставлены все ударения. Просодический процессор работает только с синтагмами. Следовательно, на вход процессора поступает синтагма, и дальше она начинает обрабатываться. Цель просодического процессора заключается в формировании значений трех перечисленных выше физических параметров в зависимости от времени: F0(t), T(t), A(t) – так, чтобы любому моменту времени речевого высказывания соответствовали текущая высота голоса, текущая длительность и текущая амплитуда. Это то, что мы будем иметь на выходе просодического процессора. Указанный набор параметров должен быть сформирован для каждой синтагмы.

Работа просодического процессора включает ряд этапов, которым на представленной схеме соответствуют блоки. Первый блок обозначает этап разметки интонационного типа синтагмы. Типология синтагм была рассмотрена в подразделе 2.4. Кроме того, как было продемонстрировано выше, интонационная разметка синтагм может быть осуществлена на этапе пофразовой обработки текста в лингвистическом процессоре. Поэтому данный блок может быть реализован как в рамках лингвистического процессора, так и в рамках просодического процессора. Здесь, во избежание дублирования, данный этап рассматриваться не будет.

Следующий блок просодического процессора – блок разметки синтагм на акцентные группы. Синтагма состоит из фонетических слов, и каждое слово отмечено ударением. Напомним, что для фонетических слов выделяется два типа ударений:

• сильное (основное, полное) ударение (+);

• слабое (побочное, частичное) ударение (-).

В синтагме столько акцентных групп (АГ), сколько имеется сильных ударений. Если в синтагме есть слова, помеченные слабыми ударениями, то они присоединяются к словам с сильным ударением в одну акцентную группу.

Для полноты изложения вернемся к рассмотренному примеру и полученному в результате размеченному фонемному тексту:

«Вы- /(,)## ка-к в’и+дна /(,)## йэщ'о- н’ипан’има+ити /(,)## што- ч’илав’э+ка магл’и+ жда+т’ друз’йа+ /(,)## айиво- апазда+н’ийэ нацэ+лыйэ су+тк’и /(,-)# растра+иваит все- пла+ны /(,)## имо-жыт павле+ч’ засабо-й /(,-)# ма+ссу ниудо+пств /(.)###

– А+х /(!)### Та-к де+ла бы+ла вэ+там /(?)###

– Во-т и+минна /(..)####»

В данном тексте имеются синтагмы, включающие несколько слов с сильным ударением. Поэтому они должны быть разбиты на акцентные группы. Для обозначения границы акцентной группы по-прежнему будем использовать знак «//». В результате получим:

«Вы- /(,)## ка-к в’и+дна /(,)## йэщ'о- н’ипан’има+ити /(,)## што- ч’илав’э+ка // магл’и+ // жда+т’ друз’йа+ /(,)## айиво- апазда+н’ийэ // нацэ+лыйэ // су+тк’и /(,-)# растра+иваит // все- пла+ны /(,)## имо-жыт павле+ч’ засабо-й /(,-)# ма+ссу // ниудо+пств /(.)###

– А+х /(!)### Та-к де+ла // бы+ла // вэ+там /(?)###

– Во-т и+минна /(..)####»

Таким образом, из данного примера видно, что акцентная группа – это необязательно одно фонетическое слово. АГ может включать и несколько слов, объединенных главным ударением. Это принципиально важно для задания мелодического и ритмического контуров. Следует также отметить, что просодический портрет (см. ниже) описывает интонацию синтагмы независимо от числа входящих в нее акцентных групп. Если их число больше трех, то все акцентные группы между начальной и конечной являются срединными. Если акцентных групп две, то первая из них начальная, а вторая – конечная. Если акцентная группа одна, то она конечная.

Перейдем к следующему блоку – разметке на элементы акцентных групп (ЭАГ). Это необходимо для того, чтобы нарисовать интонационные контуры акцентных групп. Напомним, что существует три ЭАГ:

• ядро – главный элемент,

• предъядро – находится непосредственно перед ядром;

• заядро – после ядра.

Вспомним правила разбивки акцентной группы на элементы: ядро является главной ударной гласной слова, заядро – это все звуки справа от ядра, а предъядро – все звуки слева от ядра. Получается, что заядро и предъядро могут содержать различное количество звуков вплоть до их отсутствия.

Далее можно сформировать физические параметры просодики или интонации: частоту основного тона, длительность и интенсивность. Ядро, предъядро и заядро могут быть совершенно разной длительности. Интонационный тип синтагмы определяется путем задания эталонных просодических кривых для определенных акцентных групп. Совокупность просодических характеристик, с помощью которых описывается интонационный тип синтагмы, называется портретом интонемы или портретом просодемы. Портреты просодем задаются набором контуров мелодики, ритмики и энергетики, которые складываются из нормированных контуров входящих в нее акцентных групп: начальной, конечной и срединной.

Задача формирования интонационных контуров синтагм решается на последнем этапе просодического процессора в блоке формирования физических характеристик просодики речи.

Рассмотрим сначала процесс формирования интонационного контура частоты основного тона F0. Для каждого интонационного типа можно задать определенный рисунок или контур изменения частоты основного тона. Акцентная группа описывается одним и тем же контуром независимо от числа слогов, входящих в нее. Если число слогов в предъядре или заядре больше трех, то добавляются срединные слоги. При меньшем числе слогов из рассмотрения исключаются вначале срединный слог, затем начальный и конечный. Если предъядро иди заядро отсутствуют, то их функцию берет соответственно левый или правый сегмент.

Например, интонация завершенности начинается с средне высокой частоты, затем на ядре падает в область средне низкой частоты и завершается в области низкой частоты. Пусть, например, на вопрос «Это хорошо?» отвечают утвердительно: «Хорошо». При этом в конце фразы падает голос. Выделим в данной фразе (которая, отметим, состоит всего из одного слова) элементы акцентной группы:

• предъяро: «хорош»;

• ядро: «о» - последний ударный слог;

• заядро: «о».

Здесь есть как бы две буквы «о», причем на последнем «о» падает интонация. Интонация вопроса в слове «хорошо» выглядит следующим образом: на ядре – подъем тона, а на заядре – падение.

Если рассмотреть аналогичный пример для слова «качественно», то падение тона происходит после ударного «а» и все остальные звуки звучат на низком тоне.

Для того чтобы интонировать произвольные фразы, нельзя придумать конечный набор каких-то кривых. Это можно сделать только путем трансформации идеальных интонационных портретов. В приведенных в подразделе 2.4 четырех основных интонационных контурах представлены интонации вопроса, завершения и восклицания, в которых на ядре всегда бывает резкий подъем. Указанные три интонационных контура накладываются на конечную акцентную группу фразы.

Показанные на рис. 2.3 (подраздел 2.4) четыре кривые – это основные интонационные кривые. Что-то подобное (подобная трансформация) происходит для всех 16-ти рассмотренных в разделе 2 интонационных типов.

Рассмотрим примеры формирования интонационных контуров незавершенности. Это происходит практически всегда, когда синтагма не является конечной. Чаще всего незавершенность проявляется в том, что высота голоса как бы поднимается и потом опускается на низкий уровень частоты.

Интонационные портреты на рис. 2.3 характерны для конечной акцентной группы. Чтобы полностью охарактеризовать сложную синтагму, подобные портреты должны быть нарисованы для срединной и начальной акцентных групп. Разнообразие интонационных контуров для начальной и срединной АГ значительно меньше, чем для конечной АГ (рис. 4.9).

Как правило, на срединной АГ идет подготовка к конечной. Начальная АГ не имеет значимых изменений. Интонационный тип синтагмы определяется по последней АГ, и при синтезе речи основное внимание уделяется моделированию интонационных характеристик этой акцентной группы.

Рассмотрим теперь процесс формирования параметров A и T. Формирование мелодического контура (F0(t)) – наиболее сложная и важная задача. Формирование контуров длительности (T(t)) и интенсивности (амплитуды A(t)) – менее сложная задача. Вариативность этих контуров гораздо меньше. На рис. 4.10 в обобщенном виде представлено поведение всех интонационных типов для амплитуды (An) и длительности (Тn) в зависимости от нормированного времени (tn).

Для длительности звука (рис. 4.10,б) можно определить соотношение предъядра, ядра и заядра как соотношение 2: 4 :1. Ядерный звук гласной обязательно длинный, предшествующие звуки средней длины, а последние звуки, как правило, проговариваются скороговоркой. Примерно такая же картина для интенсивности или громкости звука (рис. 4.10,а), т.е. наиболее громким является главный ударный гласный, предударные звуки – менее громкие, а самые тихие звуки – заударные.

В завершение рассмотрения работы просодического процессора приведем иллюстрацию портрета интонемы общего вопроса (рис. 4.11) [16] (Попов Э.В.ред.1990спр-ИскусИ-К1). На данном рисунке изображены сразу три контура: мелодический, интенсивности и длительности. Подобные портреты используются формирователем параметров F0(t), T(t), A(t) для всех интонационных типов.

Рисунок 4.11. Портрет интонемы общего вопроса