logo
Шпора по ЕЯИС, 2ой семестр (Головня) [8282 вопросов]

Пофразовая обработка текста

Рассмотрим второй блок лингвистического процессора (рис. 4.4). Здесь мы имеем на входе нормализованный текст и далее осуществляется пофразовая обработка этого текста. В нормализованном тексте есть только буквы и знаки препинания, нет ни чисел, ни формул, ни сокращений, ни аббревиатур. В процессе пофразовой обработки происходит выполнение следующих рассмотренных ниже операций. 1. Членение нормализованного текста на фонетические периоды, фразы и синтагмы. Напомним, что фонетический период - это такой отрезок текста, который начинается с новой строки или то, что называется в орфографии "абзац". Обычно при произношении наибольшим участком речи, который хоть как-то единообразно оформлен, является фонетический период. Следует, однако, заметить, что существующие в настоящее время синтезаторы до абзаца часто не доходят, а ограничиваются только фразами. Тем не менее обычный текст берется и прочитывается от абзаца до следующего абзаца. Далее фонетические периоды членятся на фразы. В тексте фразы чаще всего соответствуют предложениям, хотя это не всегда так. Поэтому задача членения на фразы достаточно проста в первом приближении. Менее простая задача – членение на синтагмы или членение фразы на более мелкие участки (если это необходимо, так как фраза может состоять только из одной синтагмы). Под синтагмой понимаются элементы фразы, которые обладают определенной самостоятельностью в смысле просодики, т.е. определенной ритмической структурой, определенной интонационной структурой и которые в принципе допускают некоторую паузу после того, как они были произнесены. Предложения и фразы могут быть очень длинными, тем не менее человек читает их не на одном дыхании, а разделяя на какие-то элементы по 3-4 (а иногда немного больше) слова, после которых делается дыхательная пауза, потому что возможности дыхательного аппарата не бесконечны, ему необходимо делать выдохи и вдохи, несмотря на то, что фраза еще не закончилась. 2. После членения текста на синтагмы, они должны быть промаркированы фразовыми ударениями. При выполнении данной операции определяется степень значимости синтагм в конкретной фразе. Так же как в слове, состоящем из отдельных слогов, выделяется ударный слог, так и во фразе, которая состоит из отдельных синтагм, может быть выделена та или иная синтагма, которая является главной (ударной), или даже существует иерархия синтагм по степени важности. Благодаря этому, в речи выделяется главное и второстепенное. 3. После того как промаркированы фразовые ударения, осуществляется интонационная разметка синтагм, т.е. исходя из того, какая синтагма является более или менее выраженной, где она находится во фразе, какой есть знак препинания, определяется интонационный тип синтагмы.

4. Кроме интонационной разметки синтагм, необходима информация о длительности паузы, которая должна быть реализована после каждой синтагмы. Для этого осуществляется операция паузации (расстановки длительности пауз). Длительность паузы зависит, в частности, от типа синтагмы. Например, очевидно, что после конечной синтагмы пауза длиннее, чем после начальной или срединной. На практике при осуществлении паузации обычно вводится некоторый специальный символ, который обозначает минимальное значение длительности паузы. Далее более длинные паузы обозначаются несколькими такими специальными символами. Пример осуществления паузации будет рассмотрен ниже, в завершение рассмотрения лингвистического процессора в целом. В результате работы блока пофразовой обработки текста получается синтагматически размеченный текст. Безусловно, все эти операции очень трудно делать чисто формальным путем, потому что в зависимости от того, как разобьешь фразу или текст на синтагмы, звучание текста может быть самым разным. Поэтому во всех этих блоках желательно использовать всю информацию, весь арсенал лингвистики: лексику (словарь), морфологию, синтаксис, семантику и даже прагматику. В настоящее время в основном используется словарь, в меньшей степени – морфология, еще в меньшей степени –синтаксис, а семантика и тем более прагматика практически еще не используются. Но видимо, в будущих системах, которые будут понимать смысл того, что говорится, будет обязательно использоваться семантика, а в перспективе – и прагматика. Именно здесь наиболее ценными являются результаты исследований экспертов-лингвистов. Следует также отметить, что все рассмотренные процедуры не являются жесткими (четко формализованными) и поэтому трудно алгоритмизируются. Два разных человека могут прочитать один и тот же текст совершенно по-разному. Художественное чтение, например, – это вообще особый вид искусства. Синтезаторы – пока плохие чтецы, но ведь есть и люди с плохой дикцией, порой даже хуже, чем синтезаторы.

Рис. Схема работы блока пофразовой обработки текста