logo search
16-20

19. Корпусная лингвистика, её идеология и основные понятия.

Корпусная лингвистика – раздел компьютерной лингвистики, занимающийся разработкой общих принципов построения и использования лингвистических корпусов (корпусов текстов) с использованием компьютерных технологий.

Под названием лингвистический, или языковой, корпус текстов понимается большой, представленный в электронном виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач. Лингвистическим корпусом называют совокупность текстов, собранных в соответствии с определёнными принципами, размеченных по определённому стандарту и обеспеченных специализированной поисковой системой.

В понятие «корпус текстов» входит также система управления текстовыми и лингвистическими данными, которую в последнее время чаще всего называют корпусным менеджером (или корпус-менеджером) (англ. corpus manager). Это специализированная поисковая система, включающая программные средства для поиска данных в корпусе, получения статистической информации и предоставления результатов пользователю в удобной форме.

Целесообразность создания и смысл использования корпусов определяется следующими предпосылками:

1) достаточно большой (репрезентативный) объем корпуса гарантирует типичность данных и обеспечивает полноту представления всего спектра языковых явлений;

2) данные разного типа находятся в корпусе в своей естественной контекстной форме, что создает возможность их всестороннего и объективного изучения;

3) однажды созданный и подготовленный массив данных может использоваться многократно, многими исследователями и в различных целях.

Можно сказать, что все современные лингвистические исследования и работы по составлению словарей и грамматик так или иначе ориентированы на использование представительных корпусов текстов. Развитие современных интеллектуальных программных систем, предназначенных для обработки текстов на естественном языке, также требует большой экспериментальной лингвистической базы. Спрос на корпусные данные совпал с появлением соответствующих технических возможностей.

Термин введён в употребление в 60-х годах XX века в связи с развитием практики создания корпусов, которому начиная с 80-х способствовало развитие вычислительной техники.

В 1963 г. в Брауновском университете (США) впервые был создан большой корпус текстов на машинном носителе (Brown Corpus).

Затем последовали Ланкастерский корпус английского языка (Lancaster-Oslo-Bergen Corpus, LOB), Уппсальский корпус русского языка. Среди современных корпусов английского языка наиболее известны Британский национальный корпус (British National Corpus), Международный корпус английского языка (International Corpus of English), лингвистический Банк английского языка (Bank of English), НКРЯ и др.

Объем первых корпусов составлял 1 млн словоупотреблений (Брауновский корпус, Уппсальский корпус русского языка). В настоящее время считается, что объем общеязыкового корпуса должен быть не меньше 100 млн словоупотреблений.

Главная цель КЛ:

-лингвистическое описание языковой системы (подход от конкретного изучения коммуникации людей),

-особый способ отражения речевого материала в корпусе текстов, который может использоваться в свою очередь другими лингвистическими дисциплинами.

Типы лингвистических корпусов - иллюстративные и исследовательские, статичные и динамические, одноязычные и полиязычные, корпусы устной или письменной речи, национальные корпуса и др.

Важнейшее понятие корпусной лингвистики – репрезентативность. Под репрезентативностью понимается необходимо-достаточное и пропорциональное представление в корпусе текстов различных периодов, жанров, стилей, авторов и т.п. Репрезентативность - способность отражать все свойства проблемной области.

Разметка (tagging, annotation) заключается в приписывании текстам и их компонентам специальных меток (tag, tags): внешних, экстралингвистических (сведения об авторе и сведения о тексте: автор, название, год и место издания, жанр, тематика; сведения об авторе могут включать не только его имя, но также возраст, пол, годы жизни и многое другое. Это кодирование информации имеет название метаразметка), структурных (глава, абзац, предложение, словоформа) и собственно лингвистических, описывающих лексические, грамматические и прочие характеристики элементов текста.

Среди лингвистических типов разметки выделяются:

морфологические метки включают не только признак части речи, но и признаки грамматических категорий, свойственных данной части речи.

Существуют и другие типы разметки.

Работа пользователей с корпусом осуществляется с помощью специализированных программных средств – корпусных менеджеров, предоставляющих разнообразные возможности по получению из корпуса необходимой информации:

Результаты поиска обычно выдаются в виде конкорданса (поэтому корпусные менеджеры еще называют конкордансерами), где искомая единица представлена в ее контекстном окружении и в виде статистических данных. Последние могут фиксировать частотные характеристики отдельных языковых единиц, или граммем, или могут характеризовать совместную встречаемость нескольких лексических единиц. Многие системы позволяют настраивать формат выдачи (менять длину левого и правого контекста, задавать объем выдачи и порядок сортировки данных, отображать или не отображать лингвистические и экстралингвистические характеристики, и т.д.).

Несмотря на разнообразие корпусов, можно выделить два основных способа деления корпусов на классы: 1) это противопоставление корпусов, относящихся ко всему языку (часто к языку определенного периода), корпусам, относящимся к какому-либо подъязыку (жанр, стиль, язык определенной возрастной или социальной группы, язык писателя или ученого и т.п.); 2) разделение корпусов по типу лингвистической разметки. Несмотря на наличие множества типов разметки, большинство реально существующих корпусов относится к корпусам морфологического либо синтаксического типа (последние в англоязычной литературе называют treebanks, что можно перевести как «банки синтаксических структур»). При этом следует подчеркнуть, что корпус с синтаксической разметкой явно или неявно включает в себя и морфологические характеристики лексических единиц.

Признак

Типы корпусов

Тип данных

Письменные

Речевые

Смешанные

Язык текстов

Русский

Английский и т.д.

«Параллельность»

Одноязычные

Двуязычные

Многоязычные

«Литературность»,

специфичность

Литературные

Диалектные

Разговорные

Терминологические

Смешанные

Жанр

Литературные

Фольклорные

Драматургические

Публицистические

Доступность

Свободно доступные

Коммерческие

Закрытые

Назначение

Исследовательские

Иллюстративные

Динамичность

Динамические (мониторные)

Статические

Разметка

Размеченные

Неразмеченные

Характер разметки

Морфологические

Синтаксические

Семантические

Просодические и т.д.

Объем текстов

Полнотекстовые

«Фрагментнотекстовые»

Хронологический аспект

Синхронические

Диахронические

«Общность»

Общие

Одного писателя

Структура

Центральные и архивные

Ядерные и периферийные

Основные понятия.

Проблемная область. Под проблемной областью понимается область реализаций языковой системы, содержащая феномены, подлежащие лин­гвистическому описанию. Проблемная область для конкретного корпуса данных может быть сколь угодно велика или мала — все определяется выбранным объектом анализа. Существенно иметь в виду, что в идеале проблемная область имеет два измерения — языковое и речевое. Рече­вое представлено речевыми высказываниями (реализациями), а языковое измерение проявляется в существовании потенциальной возможности по­явления других употреблений, дополняющих массив имеющихся реализа­ций. Как правило, в корпусной лингвистике языковой аспект фактически игнорируется, поскольку изначально фиксируется область привлекаемых данных — реализаций языковой системы. Это совершенно естественно, поскольку вряд ли возможно зафиксировать, собрать «потенцию», «воз­можность». Однако для регулярно изменяемых корпусов данных языковой аспект проблемной области сразу «вылезает» при разработке принципов модификации корпуса. Кроме того, для лингвистического исследования (кроме специально оговариваемых случаев) в центре внимания стоит именно языковое измерение, поскольку его следует реконструировать в результате анализа.

С чисто практической точки зрения проблемная область чаще всего предстает перед разработчиком корпуса как множество данных, обработка которых затруднена из-за того, что языковых реализаций слишком много.

Корпус данных. Корпус данных представляет собой сформированную по определенным правилам выборку данных из проблемной области. Тем самым корпус данных представляет собой результат отображения из про­блемной области. В отличие от проблемной области, корпус данных имеет только одно измерение — речевое, поскольку сам по себе он не обла­дает потенцией производства своих составляющих. Последнее, однако, не означает, что корпус данных не может использоваться для реконструк­ции языка как системы. Наоборот — это одна из главных задач лингви­стического исследования корпуса. Перед нами одно из глобальных про­тиворечий, свойственное любому продукту языковой системы — от звука до текста. Лингвисту приходится по отдельным результатам деятельности языка делать выводы о функционировании языка как целого, как системы.

Единица хранения корпуса данных. Поскольку корпус данных — это некоторая выборка из проблемной области, сформированная по опре­деленным принципам, то единица хранения непосредственно зависит от того, по каким основаниям осуществляется выборка. Единица хра­нения — это некоторая совокупность естественноязыковых выражений проблемной области, которой сопоставляется одно описание на не­котором метаязыке, определяемом процедурой формирования корпуса. У. Фрэнсис, обсуждая размеры «базовых единиц» корпуса, отмечает, что это могут быть отдельные слова, короткие фразы, предложения, слово­сочетания (синтагмы). Если корпус предполагается для синтаксического анализа, то он должен включать целые тексты или их достаточно большие фрагменты [Фрэнсис 1983, с. 344 и далее].

На основании описания единицы хранения можно судить о том, какая часть проблемной области представлена в корпусе. Например, еди­ница хранения корпуса рекламных слоганов, созданного в Отделе экспе­риментальной лексикографии Института русского языка РАН, включает следующие характеристики:

Выражение естественного языка Для мужчин, которые любят женщин, которые любят мужчин и сопоставленные ему характеристики вместе образуют единицу хранения, которая может вводиться в базу данных или включаться в обычный файл текстового формата.

Единица хранения корпуса названий газетных статей должна бы­ла бы включать само название и совокупность дескрипций, содержащих информацию о том, из какой газеты название получено, в какой рубрике находится статья, когда вышла газета и другую необходимую инфор­мацию. Совокупность описаний единиц хранения образует некоторое множество, по которому можно судить о представительности выборки — какие газеты представлены, как формировалась выборка по временному параметру (все газеты какого-то периода vs. газеты через определен­ные промежутки времени vs. все газеты выбранных временных отрезков и т.д.); статьи каких рубрик представлены и пр.

Корпус текстов. Корпус текстов — это вид корпуса данных, единица­ми которого являются тексты или их достаточно значительные фрагмен­ты, включающие, например, какие-то полные фрагменты макроструктуры текстов данной проблемной области.

Несколько соображений о типах корпусов данных.

Исследовательские корпусы. Исследовательскими называются такие корпусы, которые предназначены преимущественно для изучения раз­личных аспектов функционирования языковой системы. Они строятся не post factum — после проведения какого-либо исследования, а до его проведения. Этот тип корпусов данных, как правило, ориентирован на широкий класс лингвистических задач. Неспецифицированность за­дачи требует при построении исследовательских корпусов использовать пропорциональное сужение, являющееся наиболее простым способом обеспечения репрезентативности (см. ниже).

Иллюстративные корпусы. Иллюстративные корпусы создаются после проведения научного исследования: их цель не столько выявить новые факты, сколько подтвердить и обосновать уже полученные результаты. Такие корпусы не являются слепком, правильным (с точки зрения стати­стики) отображением проблемной области. Они включают лишь то, что достаточно для иллюстрации описываемого феномена. Типичный пример иллюстративного корпуса представлен в «Путеводителе по дискурсив­ным словам русского языка» [Баранов, Плунгян, Рахилина 1993], где семантический анализ частиц и выделенные значения сопровождаются значительным текстовым материалом, позволяющим читателю проверить предложенные семантические интерпретации.

Динамические и статические корпусы текстов. Первоначально корпусы текстов создавались как статические образования, отражающие опреде­ленное временное состояние языковой системы. Типичными представи­телями этого вида корпусов являются авторские корпусы — коллекции текстов писателей. Однако значительная часть чисто лингвистических и не только лингвистических задач требует выявления функционирования языковых феноменов на временной шкале — например, изменения значе­ния слов, частоты использования тех или иных синтаксических конструк­ций и пр. Для отражения процессуального аспекта проблемной области была разработана новая технология построения и эксплуатации динами­ческого корпуса текстов. В имеющейся литературе такие корпусы получи­ли также название мониторных23). Особенность сборки мониторных кор­пусов заключается в том, что они не предполагают раз и навсегда заданно­го набора текстов. В течение заранее фиксированного промежутка време­ни происходит обновление и/или дополнение множества текстов корпуса.

Специфика эксплуатации динамического корпуса состоит в том, что пользователь при проведении исследования может выделить из об­щего генерального корпуса рабочий корпус, включающий лишь часть текстов генерального корпуса. Как динамический корпус строился Бир­мингемский корпус английского языка. Пример динамического корпуса по современной российской публицистике рассматривается ниже.

Корпусы параллельных текстов. Для научных и практических це­лей (в частности, для преподавания иностранных языков) формируются

23) Термин «мониторный» прямо связан с идеей лингвистического мониторинга — см. §4 главы 5.

корпусы параллельных текстов. По своей структуре это подмножество текстов на языке-источнике и одно или несколько подмножеств текстов, которые являются переводами текстов языка-источника на языки-цели. Например, английский текст «Alice in Wonderland» и его переводы на не­мецкий, французский и русский языки могут формировать такой корпус или быть частью большего корпуса параллельных текстов.

Способ представления и хранения корпуса данных. Наибольший инте­рес представляют те способы, которые опираются на современные ком­пьютерные технологии хранения и обработки данных. Для дальнейшего изложения важно делать различие между двумя основными способами представления — неструктурированным текстовым форматом хранения (запись графем текста в ASCI-кодах) и структурированным форматом хра­нения (текст со специальной разметкой); к последнему можно отнести также представление данных в форматах баз данных различного типа.

Порог отображения. Поскольку корпус данных является сужением проблемной области, то совершенно очевидно, что при «пропорциональ­ном» сужении, являющемся, по-видимому, простейшим случаем реализа­ции принципа репрезентативности (см. ниже), некоторые части проблем­ной области оказываются вне корпуса данных. Возьмем грубый пример. Пусть в проблемной области содержится 20 контекстов, а в корпусе дан­ных должна быть четвертая часть — 5 контекстов. Контексты являются примерами реализации различных синтаксических феноменов: в десяти контекстах представлены простые предложения, а в восьми — сложные. В двух последних контекстах содержатся примеры парцелляции. В корпу­се данных один контекст соответствует четырем контекстам проблемной области. Это означает, что контексты парцелляции при пропорциональ­ном сужении в четыре раза не попадают в корпус данных. Соотношение между корпусом данных и проблемной областью при пропорциональ­ном сужении будем называть порогом отображения. Чем выше порог, тем больше вероятность, что какие-то феномены проблемной области, обладающие сравнительно низкой частотой, не попадут в корпус данных.

Параметризация проблемной области. Сужение проблемной области к исследовательскому корпусу основывается на выделении некоторых ха­рактеристик текстов проблемной области, которые релевантны для пред­полагаемого исследования. Совокупность этих характеристик (их возмож­ные комбинации) образует многомерную матрицу, служащую основой для отбора текстов в корпус. Часто для оценки релевантных параметров про­блемной области привлекается экспертная оценка. У. Фрэнсис, описывая историю создания Брауновского корпуса, отмечает, что на этапе плани­рования работ было собрано совещание известных экспертов в области конструирования корпусов (в нем принимали участие Р. Куирк, Ф. Гоув, Дж. Кэррол), которое и сформулировало основные принципы параме­тризации проблемной сферы и структуру корпуса