logo search
ГОСы

Исходные понятия корпусной лингвистики

Проблемная область. Под проблемной областью понимается область реализаций языковой системы, содержащая феномены, подлежащие лин­гвистическому описанию. В идеале проблемная область имеет два измерения — языковое и речевое. Рече­вое представлено речевыми высказываниями (реализациями), а языковое измерение проявляется в существовании потенциальной возможности по­явления других употреблений, дополняющих массив имеющихся реализа­ций.

Корпус данных. Корпус данных представляет собой сформированную по определенным правилам выборку данных из проблемной области. Тем самым корпус данных представляет собой результат отображения из про­блемной области. В отличие от проблемной области, корпус данных имеет только одно измерение — речевое, поскольку сам по себе он не обла­дает потенцией производства своих составляющих.

Единица хранения корпуса данных – это некоторая совокупность естественноязыковых выражений проблемной области, которой сопоставляется одно описание на не­котором метаязыке, определяемом процедурой формирования корпуса.

Корпус текстов. Корпус текстов — это вид корпуса данных, единица­ми которого являются тексты или их достаточно значительные фрагмен­ты, включающие, например, какие-то полные фрагменты макроструктуры текстов данной проблемной области.

Типы корпусов данных.

Исследовательские корпусы. Исследовательскими называются такие корпусы, которые предназначены преимущественно для изучения раз­личных аспектов функционирования языковой системы.

Иллюстративные корпусы. Иллюстративные корпусы создаются после проведения научного исследования: их цель не столько выявить новые факты, сколько подтвердить и обосновать уже полученные результаты.

Корпусы параллельных текстов. Для научных и практических це­лей формируются корпусы параллельных текстов. По своей структуре это подмножество текстов на языке-источнике и одно или несколько подмножеств текстов, которые являются переводами текстов языка-источника на языки-цели. Например, английский текст «Alice in Wonderland» и его переводы на не­мецкий, французский и русский языки могут формировать такой корпус или быть частью большего корпуса параллельных текстов.

Требования к корпусу. Корпус данных, будучи отражением проблемной области, должен совмещать, с точки зрения пользователя, самые противоречивые требо­вания: репрезентативность (способность корпуса текстов отражать все свой­ства проблемной области, релевантные для данного типа лингвистичес­кого исследования) полнота (учет релевантных явлений), экономичность (экономия усилия иссле­дователя при изучении проблемной области), структуризация материала, компьютерная поддержка (поддержка корпуса текстов комплексом программ по обработке данных, обеспечивающих функции составления конкордансов, статистической инвентаризации, автоматиче­ской словарной обработки и пр.

К настоящему времени накоплен уже довольно значительный опыт построения корпусов текстов, однако информация о наличии корпусов в разных странах ограничена. Это существенно затрудняет проведение научных исследований и нередко приводит к дублированию работы. Сложность получения информации о существующих корпусах текстов связана с тем, что практически все они создаются по локальным проектам отдельными организациями. Международная координация усилий в этой области пока еще не налажена в должной мере.

Вторая проблема в области корпусной лингвистики связана с первой: локальность проектов приводит к возникновению различных форматов представления корпусов текстов. Отсутствие единого формата предста­вления дополняется и несовместимостью программного обеспечения.

В имеющихся описаниях корпусов нет ясной информации о содержа­тельных принципах отбора материала. Поскольку корпус является суже­нием проблемной области, то представительность корпуса прямо связана с принципами отбора материала. Если же нет уверенности в представи­тельности корпуса, его заведомо нельзя использовать для многих видов лингвистической деятельности, например, для оценки частоты употре­бления лексем в тех или иных значениях или для составления словников некоторой проблемной области. Необходимо разработать общепринятую процедуру сужения проблемной области до корпуса текстов. По-види­мому, таких процедур должно быть несколько, поскольку соотношение между корпусом и проблемной областью не является постоянной величи­ной и меняется в зависимости от характера проблемной области и задач исследования.