logo search
Шпора по ЕЯИС, 2ой семестр (Головня) [8282 вопросов]

Пример работы лингвистического процессора

Итак, лингвистический процессор преобразует исходный орфографический текст в размеченный фонемный текст. При этом, наряду с удалением из этого текста некоторых специальных символов, не имеющих отношения к естественному языку, в него «внедряются» другие специальные символы, которые обозначают, в частности, границы фраз, фонетических периодов, синтагм, ударения различного типа, а также фонемы. Таким образом, исходный текст подготавливается к его «восприятию» речевой системой. Точно так же в человеческом мозгу, незаметно для нас самих, происходят в чем-то подобные описанным выше действиям операции. Когда мы видим перед собой текст, мы «вспоминаем» правила чтения, и на начальном этапе подготовки к чтению этого текста в мозгу формируется некоторое подобие размеченного фонемного текста, в котором буквы заменяются на фонемы, а фразы разбиваются на составляющие, подобные синтагмам. Особенно наглядно это можно проследить в случае изучения человеком правил чтения на иностранном языке. Рассмотрим конкретный пример превращения орфографического текста в фонемный в соответствии с теми основными шагами, которые были описаны выше. Возьмем следующий абзац естественно-языкового текста: «Вы, как видно, ещё не понимаете, что человека могли ждать друзья, а его опоздание на целые сутки расстраивает все планы и может повлечь за собой массу неудобств. – Ах! Так дело было в этом? – Вот именно.» Этап предварительной обработки данного текста мы опустим, так как здесь нет ни сокращений, ни чисел, ни формул, а специальные символы нами не воспринимаются, так как мы видим исходный текст в том виде, в котором нам удобнее всего его читать. Единственное, что можно было бы удалить, так это символы «–», обозначающие прямую речь, но мы их оставим, опять же, для удобства восприятия. На этапе пофразовой обработки текста следует отметить, что данный отрывок текста представляет собой типичный фонетический период, равный абзацу. Этот период состоит из четырех фраз разной длительности. Первая фраза очень длинная и состоит из нескольких синтагм, вторая фраза состоит всего лишь из одного слова, третья и четвертая фразы – из одной синтагмы. Также эти фразы различаются интонационно: первая и четвертая – повествовательные или фразы с завершенной интонацией, вторая – восклицательная, третья – вопросительная. Рассмотрим более подробно расстановку границ синтагм и будем использовать обозначения, введенные нами в разделе 2 (знак «/» обозначает границу синтагмы). На начальной стадии рассмотрения данного текста воспользуемся следующими очевидными правилами: • первым признаком границ между синтагмами являются знаки препинания; • без всякого риска конец синтагмы можно ставить перед союзом "и". В этом случае получаем следующую начальную разметку: «Вы /, как видно /, ещё не понимаете /, что человека могли ждать друзья /, а его опоздание на целые сутки расстраивает все планы / и может повлечь за собой массу неудобств /. – Ах /! Так дело было в этом /? – Вот именно /.» Но это еще не все. Рассмотрим более подробно правила членения на синтагмы первой самой длинной фразы. Пятая полученная нами «синтагма» данной фразы, между союзами «а» и «и», является слишком длинной и членится на две более мелкие синтагмы следующим образом. Известно, что граница синтагмы не должна стоять между определяемым и определяющим словом. Например, «а его опоздание на целые» нельзя отделить от слова «сутки», так как ясно, что слова «целые» и «сутки» связаны, следовательно между ними никак нельзя поставить границу синтагмы. Границу можно поставить после слова «сутки», так как слова «сутки» и «расстраивает» не связаны между собой. Аналогично в последней, тоже слишком длинной «синтагме» нельзя поставить границу между словами «может» и «повлечь», а также между словами «повлечь» и «за собой», так как они тоже связаны. А вот слова «собой» и «массу» уже не связаны, следовательно, между ними можно ставить границу синтагмы. Напомним, что самые надежные критерии связанности слов – синтаксические правила. Но можно судить о границе синтагмы по более простым правилам, связанным с анализом частей речи.

Итак, в результате изложенных рассуждений получаем следующую разметку на синтагмы: «Вы /, как видно /, ещё не понимаете /, что человека могли ждать друзья /, а его опоздание на целые сутки / расстраивает все планы / и может повлечь за собой / массу неудобств /. – Ах /! Так дело было в этом /? – Вот именно /.» После этого необходимо расставить полные и частичные фразовые ударения. Напомним, что частичное ударение проставляется в не очень значимых частях речи, например, в местоимениях и служебных словах. В существительных, глаголах и прилагательных проставляется полное ударение, хотя возможны исключения. Например, в слове «Ах» ставим полное (сильное) ударение, так как в нашем случае это отдельная фраза. Используя введенные в обозначения («+» - полное ударение, «-» - частичное), получаем: «Вы- /, ка-к ви+дно /, ещё- не понима+ете /, что- челове+ка могли+ жда+ть друзья+ /, а его- опозда+ние на це+лые су+тки / расстра+ивает все- пла+ны / и мо-жет повле+чь за собо-й / ма+ссу неудо+бств /. – А+х /! Та-к де+ло бы+ло в э+том /? – Во-т и+менно /.» Далее необходимо осуществить интонационную разметку синтагм. В тех местах, где стоят знаки препинания, это сделать очень просто – можно все оставить как есть либо использовать какие-либо дополнительные обозначения. В данном случае, чтобы отличить знаки препинания от интонационной разметки, будем использовать эти же знаки препинания, но взятые в круглые скобки. Кроме того, для начальных и срединных синтагм будем использовать обозначения интонации незавершенности. Тогда получим: «Вы- /(,) ка-к ви+дно /(,) ещё- не понима+ете /(,) что- челове+ка могли+ жда+ть друзья+ /(,) а его- опозда+ние на це+лые су+тки /(,-) расстра+ивает все- пла+ны /(,) и мо-жет повле+чь за собо-й /(,-) ма+ссу неудо+бств /(.) – А+х /(!) Та-к де+ло бы+ло в э+том /(?) – Во-т и+менно /(..)» На этапе паузации в качестве единицы длительности введем знак «#». Тогда удвоенный знак «##» будет обозначать вдвое более длинную паузу и т.д. Разберемся в длительности пауз. Длительность пауз зависит от следующих факторов: • тип синтагмы: начальная, срединная, конечная – после начальной и срединной синтагм пауза короче, чем после конечной; • интонационный тип синтагмы – интонации завершенности, восклицания и вопроса предполагают более длительную паузу после конечной синтагмы, чем интонация незавершенности; • положение фразы по отношению к началу и концу абзаца (фонетического периода) – в конце фонетического периода пауза будет самая длинная. Итак, получаем следующие градации длительности пауз: • «#» – паузы после синтагм с частичной незавершенностью; • «##» – паузы после синтагм с простой незавершенностью; • «###» – паузы после синтагм с простой завершенностью, восклицанием или вопросом; • «####» – пауза после синтагмы с полной завершенностью. Таким образом, получаем: «Вы- /(,)## ка-к ви+дно /(,)## ещё- не понима+ете /(,)## что- челове+ка могли+ жда+ть друзья+ /(,)## а его- опозда+ние на це+лые су+тки /(,-)# расстра+ивает все- пла+ны /(,)## и мо-жет повле+чь за собо-й /(,-)# ма+ссу неудо+бств /(.)### – А+х /(!)### Та-к де+ло бы+ло в э+том /(?)### – Во-т и+менно /(..)####» Итак, мы получили синтагматически размеченный текст. Далее вступает в силу блок пословной обработки текста. Заметим при этом, что на предыдущем этапе мы уже выполнили некоторые шаги. В частности, в данном тексте уже стоят знаки полных и частичных ударений. Здесь можно заметить безударные слова. Поэтому приступим сразу к объединению слов в фонетические слова и получим следующий текст: «Вы- /(,)## ка-к ви+дно /(,)## ещё- непонима+ете /(,)## что- челове+ка могли+ жда+ть друзья+ /(,)## аего- опозда+ние наце+лые су+тки /(,-)# расстра+ивает все- пла+ны /(,)## имо-жет повле+чь засобо-й /(,-)# ма+ссу неудо+бств /(.)### – А+х /(!)### Та-к де+ло бы+ло вэ+том /(?)### – Во-т и+менно /(..)####» В этом тексте удалены пробелы между безударными словами (предлогами и союзами) и словами, с которыми они связаны. Последний этап – фонемное транскрибирование. Используя приведенные выше правила, получаем следующий размеченный фонемный текст: «Вы- /(,)## ка-к в’и+дна /(,)## йэщ'о- н’ипан’има+ити /(,)## што- ч’илав’э+ка магл’и+ жда+т’ друз’йа+ /(,)## айиво- апазда+н’ийэ нацэ+лыйэ су+тк’и /(,-)# растра+иваит все- пла+ны /(,)## имо-жыт павле+ч’ засабо-й /(,-)# ма+ссу ниудо+пств /(.)### – А+х /(!)### Та-к де+ла бы+ла вэ+там /(?)### – Во-т и+минна /(..)####»