logo
ГОСы

35. Компьютерная (корпусная) лингвистика.

Как особое научное направление компьютерная лингвистика оформилась в 60-е гг. Под термином «компьютерная лингвистика» обычно понимается широкая область использования компьютерных инструментов — программ, компьютерных технологий организации и об­работки данных — для моделирования функционирования языка в тех или иных условиях, ситуациях, проблемных областях, а также сфера применения компьютерных моделей языка не только в лингвистике, но и в смежных с ней дисциплинах. Собственно, только в последнем случае речь идет о прикладной лингвистике в строгом смысле, поскольку компьютерное моделирование языка может рассматриваться и как сфера приложения теории программирования в области лин­гвистики.

Компьютерная лингвистика как особая прикладная дисциплина выделяется прежде всего по инструменту — то есть по использованию ком­пьютерных средств обработки языковых данных.

Обратимся к тем областям компьютерной лингвистики, которые не­посредственно связаны с оптимизацией когнитивной функции языка. Ниже в качестве примера рассматриваются три сферы компьютерного моделирования, в которых используются знания о функционировании языковой системы: моделирование общения, моделирование структуры сю­жета и гипертекстовые технологии представления текста.

Моделирование общения. В узком смысле проблематика ком­пьютерной лингвистики часто связывается с моделированием общения, в частности, с обеспечением общения человека с ЭВМ на естественном или ограниченном естественном языке. Это относится к оптимизации языка как средства общения. Впрочем, компьютерные моде­ли общения часто используются для изучения самого процесса общения. Остановимся подробнее на опыте создания и использования именно таких моделей.

Моделирование структуры сюжета. Имеющиеся компью­терные программы моделирования сюжета основываются на трех базовых формализмах представления сюжета — морфологическом и синтакси­ческом направлениях представления сюжета, а также на когнитивном подходе.

Идеи о морфологическом устройстве струк­туры сюжета восходят к известным работам Проппа о русской волшебной сказке. Пропп заметил, что при обилии персонажей и событий волшебной сказки количество функций персонажей ограничено. Идеи Проппа легли в основу компьютерной программы TALE, мо­делирующей порождение сюжета сказки. В основу алгоритма программы TALE положена последо­вательность функций персонажей сказки. Фактически функции Проппа задавали множество типизированных ситуаций, упорядоченных на основе анализа эмпирического материала. Возможности сцепления различных ситуаций в правилах порождения определялись типичной последова­тельностью функций — в том виде, в котором это удается установить из текстов сказок. В программе типичные последовательности функций описывались как типовые сценарии встреч персонажей.

Теоретическую основу синтаксического подхода к сюжету текста составили «сюжетные грамматики» (story grammars). Сю­жетные грамматики появились в середине 70-х гг. в результате переноса идей порождающей грамматики Н. Хомского на описание макрострукту­ры текста.

Гипертекст. Феномен гипертекста можно обсуждать с нескольких точек зрения. С одной стороны, это особый способ представления, организации текста, с другой — новый вид текста, противопоставленный по многим своим свойствам обычному тексту, сформированному в гутенберговской тради­ции книгопечатания. И, наконец, это новый способ, инструмент и новая технология понимания текста.

Структурно гипертекст может быть пред­ставлен как граф, в узлах которого находятся традиционные тексты или их фрагменты, изображения, таблицы, видеоролики и т.д. Узлы связаны разнообразными отношениями, типы которых задаются разработчиками программного обеспечения гипертекста или самим читателем. Отноше­ния задают потенциальные возможности передвижения или навигации по гипертексту. Отношения могут быть однонаправленными или дву­направленными. Соответственно, двунаправленные стрелки позволяют двигаться пользователю в обе стороны, а однонаправленные — только в одну. Цепочка узлов, через которые проходит читатель при просмотре компонентов текста, образует путь или маршрут.

Корпусная лингвистика

Любое лингвистическое исследование в той или иной мере опирается на анализ языкового материала, языковых данных.

При традиционной технологии сбора и обработки языковых данных обновление собранного материала предста­вляет собой отнюдь не тривиальную задачу. Текущая обработка картотеки, поиск нужных единиц и пр. — все эти абсолютно необходимые операции отнимают значительное время. Кроме того, традиционная технология делает практически невозможным доступ к языковым данным на рас­стоянии.

Новые информационные технологии и технические средства (ком­пьютерные системы, системы связи, системы мультимедиа) значительно облегчили сбор языковых данных.

Этот технологический рывок создал, однако, другие – не менее серьезные – проблемы, существенно осложняющие использование язы­кового материала как для чисто научных, так и научно-практических целей. Дело в том, что чрезмерный объем изучаемых данных может и затруднить описание исследуемого феномена.

Встает задача разработки общих принципов построения лингвисти­ческих корпусов данных с использованием современных компьютерных технологий. Рассмотрим здесь две важнейших темы корпусной лингви­стики, связанные с конструированием корпусов текстов:

– формулировка общих требований к корпусу данных с точки зрения пользователя;

– обсуждение опыта создания корпусов данных для различных иссле­довательских проектов.