3.3. Требования к корпусу текстов с точки зрения пользователя
Корпус данных, будучи отражением проблемной области, должен совмещать, с точки зрения пользователя, самые противоречивые требования. Поскольку последовательное соблюдение любого из требований приводит к разрушению корпуса как такового, необходимо соблюдение баланса между ними. То, как создатель корпуса старается совместить различные требования, формирует стратегию построения корпуса.
Репрезентативность. Важнейшее свойство корпуса текстов — его репрезентативность по отношению к проблемной области. Под репрезентативностью понимается способность корпуса текстов отражать все свойства проблемной области, релевантные для данного типа лингвистического исследования, в определенной пропорции, определяемой частотой явления в проблемной области. Другими словами, частота явления в корпусе должна быть близка частоте в проблемной области. Это требование ориентирует «сборщика» корпуса текстов на специализацию разрабатываемого продукта по уровневой тематике: фонетические, морфологические, синтаксические, лексические, текстовые и пр. корпуса.
Например, текстовые корпуса должны содержать в соответствующей пропорции тексты с базовыми, наиболее типичными макроструктурами, имеющимися в данной проблемной области. С другой стороны, лексические корпуса должны включать выбранные исследователем поля лексических единиц.
Стремление к репрезентативности налагает определенные ограничения на единицы хранения корпуса: если для морфологии это могут быть максимум словосочетания и отдельные предложения (для языков с развитой морфологией), то для собственно текстовых корпусов единицами хранения должны быть целые тексты и фрагменты их макроструктур.
Репрезентативность, конечно, не исчерпывается перечисленными параметрами. Так, в каждом конкретном случае может оказаться необходимым учесть стилистическую, временную, авторскую и другие составляющие текстового массива проблемной области.
Требование репрезентативности в самом простом варианте отражается в пропорциональном сужении проблемной области. В этом случае можно говорить о «пропорциональной стратегии» организации корпуса текстов. Требование адекватного отображения статистики может быть нарушено, если цель исследования заключается не столько в оценке частотности того или иного явления, сколько в изучении множества уже выделенных языковых структур. Для таких задач более разумно и экономично использовать иллюстративные корпусы текстов.
Полнота. Репрезентативность корпуса указывает на то, что единицы проблемной области отражаются пропорционально в корпусе данных, но при определенном пороге некоторые релевантные явления пропадут, исчезнут из корпуса. Полнота требует учета релевантных явлений, даже если это не соответствует идее пропорционального сужения. Требование полноты совершенно необходимо в тех случаях, когда лингвист-конструктор корпуса приблизительно знает, что ему искать. В такой ситуации исследовательский корпус может приобрести те или иные черты иллюстративного корпуса.
Экономичность. Корпус текстов должен экономить усилия исследователя при изучении проблемной области. В частности, он должен быть не просто строгим подмножеством текстов проблемной области, но, по возможности, существенно отличаться от нее по объему. В общем случае чем более «экономичен» корпус, тем выше порог отображения. В то же время для исследовательских корпусов экономия не может проводиться в ущерб репрезентативности: статистические пропорции должны быть адекватно отображены, если это не оговорено специально.
Структуризация материала. Определение единиц хранения корпуса не должно быть непосильной задачей для пользователя. Желательно сопоставить корпусу опись данных, в которой единицы хранения характеризуются по тем параметрам, которые могут оказаться важными для пользователя.
В ряде случаев на состав единиц хранения налагаются существенные ограничения. Если единицей хранения оказывается фрагмент текста (предложение или группа связанных между собой предложений), то важно, чтобы он был самодостаточным. Последнее означает, что он не должен содержать неоднозначности любых типов, в частности, местоимений, для которых невозможно восстановить антецедент и пр. В тех случаях, когда единицы хранения включают случаи языковой игры, связанной с неоднозначностью, рамки контекста должны быть таковы, чтобы пользователь мог легко определить, что речь идет о языковой игре, а не об ошибке в вычленении единицы хранения. Разумеется, это не очень существенно для таких корпусов, которые ориентированы, например, на морфологическую или фонетическую инвентаризацию
проблемной области.
Компьютерная поддержка. Желательна поддержка корпуса текстов комплексом программ по обработке данных, обеспечивающих функции составления конкордансов, статистической инвентаризации, автоматической словарной обработки (составление полных и частичных словников по различным основаниям — по частоте, по алфавиту и пр.), лемматиза-ции. Как минимум, корпус должен быть «прозрачен» для компьютерной обработки (отсутствие переносов, лишних пробелов и пр.24)
24) Ср. формальные требования к представлению текстов в Машинном фонде русского языка в [Андрюшенко 1987].
Имеющиеся компьютерные программы, ориентированные на обработку корпуса текстов, строятся по двум основным стратегиям. В первом случае программа порождает для текста комплекс указателей, в частности, указатель словоформ, в котором для каждой словоформы указывается адрес в тексте. В дальнейшем при составлении конкордансов программа оперирует не столько текстом как таковым, сколько указателями к нему. Типичный пример программ такого типа — программные пакеты LJN1LEX (Машинный фонд русского языка) [Мошкович 1989], а также американские программы ETC и WORD CRUNCHER (более поздняя версия пакета ETC; компания Electronic Text Corporation и Brigham Young University) [WordCruncher 1989a; WordCruncher 1989b]. В Великобритании используется аналогичный по функции пакет ОСР (Oxford Concordance Program), а в Германии — программа ТЕХТРАСК25). При второй стратегии для поиска необходимых контекстов программа каждый раз последовательно просматривает текст, маркируя те фрагменты, которые удовлетворяют поисковому заданию (см., например, программа DIALEX-DIAWIN — отдел экспериментальной лексикографии Института русского языка РАН [Исаев 1996]). Достоинства и недостатки первой и второй стратегии связаны с двумя факторами: с необходимостью предварительной обработки корпуса (подготовки его к составлению конкордансов) и с объемом корпуса. Первая стратегия (программы типа UNILEX) предполагает предварительное разбиение текстов на модули и составление больших указателей, что, разумеется, требует значительного рабочего времени и наличия больших ресурсов памяти.
Совершенно иная ситуация с программами, работающими по второй стратегии (программы типа DIALEX): указатели, которые они строят по корпусу текстов, являются временными и уничтожаются по мере выполнения алгоритма. Они не требуют предварительной обработки корпуса, членения текстов на отдельные модули и т. п. Но программы такого рода должны использовать очень продуктивные подпрограммы обработки текста, поскольку каждый поиск предполагает сплошной просмотр корпуса. Фактически программы типа DIALEX состоят из «кирпичиков» — очень продуктивных программ-перекодировщиков типа «FT». Основной недостаток второй стратегии заключается в том, что значительное увеличение массива текстов в корпусе существенно замедляет работу программы. В настоящее время эта пороговая величина находится на уровне 100 мегабайт. В этом случае более выгодно использовать программы типа UNILEX, работающие при составлении конкордансов не с текстами как таковыми, а с указателями к ним. Очевидно, однако, что разметка 80-100-мегабайтного корпуса и составление к нему указателей потребует значительного времени26).
25) Распространяется организацией Zentram ffir Umfragen, Methoden und Analysen — ZUMA (г. Мангейм, Германия).
26) Подробный сравнительный анализ некоторых программных пакетов обработки корпусов см. в [Miiller 1993].
Особого программного обеспечения требуют корпусы параллельных текста. Программа MULTICONCORD позволяет строить конкордансы и устанавливать соответствия между фрагментами оригинального текста и его переводами на другие языки [GroB, MiBler, Wolff 1996]. В настоящее время MULTICONCORD работает с корпусом из шести языков — английский, немецкий, французский, греческий, итальянский и датский (текст на источниковом языке и пять текстов на целевых языках). Для разньк текстов целевые языки и языки-источники варьируются. Корпус паралвльных текстов полностью интегрирован в программу. Он включает разнообразные литературные тексты — романы, драмы, короткие рассказы, а также публицистику, информационные тексты, анекдоты. Программа дает возможность производить поиск по разным языкам, разньщ словам, словоформам и словосочетаниям. Ср. фрагмент поиска на английский глагол look в оригинальном тексте «Alice in Wonderland» и его лексические эквиваленты в переводе на немецкий язык:
First, she tried to look down and make outvhat she was coming to, but it was too dark to see anything;
It was as much as she could do, lying down on one side, to look through into the garden with one eye;
| Als erstens spahte sie in die Tiefe hinab, urn zu erkennen, was ihr dort bevorstand, aber es war so dunkel, daB man nichts sehen konnte; Wenn sie sich seitlich hinlegte, konnte sie mit einem Auge gerade noch in den Garten hinausblicken, aber mehr auch nicht, und dorthin zu gelangen war aussichtsloser denn je |
Результаты поиска могут сортироваться по объему, алфавиту, по произведениям, авторам и т.д. Предполагается использовать MULTICONCORD на занятиях по изучению иностранных языков, литературы и в сфере конграстивной лингвистики.
Основная проблема в построении корпусов параллельных текстов и разработке пакетов программ для их обработки заключается в установлении соответствий между оригинальными текстами и переводами. Понятно, что тривиальное соответствие по словам или предложениям здесь невозможно. Теоретически обоснованным было бы использование технологий систем машинного перевода с языком-посредником или универсальным языком, однако в настоящее время такой подход вряд ли возможен. Насколько можно судить, создатели программы MULTICONCORD в простых случаях устанавливали лексические соответствия, а в случае свободного перевода индексировали целые фрагменты предложений или текстов.
- § 2. Рефлексия лингвистической теории в прикладной лингвистике
- Предисловие
- Глава 1 Объект и методы прикладной лингвистики § 1. Понимания термина «прикладная лингвистика»
- § 2. Круг задач прикладной лингвистики
- §3. Методы прикладной лингвистики
- Глава 2 Оптимизация когнитивной функции языка § 1. Компьютерная лингвистика
- 1.1. Компьютерная лингвистика как прикладная лингвистическая дисциплина
- 1.2. Когнитивный инструментарий компьютерной лингвистики
- 1.3. Некоторые направления компьютерной лингвистики
- 1.4. Гипертекстовые технологии представления текста
- § 2. Прикладные аспекты квантитативной лингвистики
- 2.1. Проблематика квантитативной лингвистики с теоретической и прикладной точек зрения
- 2.2. Основные области приложения структурно-вероятностной модели языка
- 2.3. Авторизация текста: пример экспертизы
- § 3. Психолингвистика как приложение лингвистики
- Глава 3 Оптимизация эпистемической функции языка §1. Лексикография
- 1.1. Из истории словарного дела
- 1.2. Базовые параметры типологизации словарей
- 1.3. Основные структурные компоненты словаря
- 1.4. Основные структурные компоненты (зоны) словарной статьи
- 1.5. Компьютерная лексикография
- § 2. Терминоведение и терминография
- 2.1. Исходные понятия
- 2.2. Важнейшие направления деятельности в терминоведении и терминографии
- 2.3. Институциональный аспект терминоведения и терминографии
- 2.4. Лингвистическая терминология как особая терминосистема*
- 2.5. Миры лингвистической терминологии
- Термины семиотики19'
- Термины прагматики
- Термины теории диалога, термины теории речевой коммуникации
- Термины логического анализа естественного языка
- Термины прикладной лингвистики
- Термины теории речевых актов
- Термины искусственного интеллекта
- Термины когнитивной науки
- 2.6. Лингвистическая терминография
- § 3. Корпусная лингвистика
- 3.1. Языковой материал в лингвистическом исследовании
- 3.2. Исходные понятия корпусной лингвистики
- 3.3. Требования к корпусу текстов с точки зрения пользователя
- 3.4. Опыт разработки корпусов текстов
- 3.5. Заключение
- Глава 4 Оптимизация функционирования языка как средства передачи информации § 1. Перевод как прикладная лингвистическая дисциплина*
- 1.1. Лингвистические и нелингвистические аспекты перевода
- 1.2. Виды перевода
- 1.3. «Естественный» перевод: лингвистические проблемы
- 1.4. Машинный перевод
- § 2. Теория и методика преподавания языка*
- 2.1. Грамматико-переводной метод в обучении иностранным языкам
- 2.2. Прямой метод обучения иностранному языку
- 2.3. Аудиолингвальный и аудиовизуальный методы обучения иностранным языкам
- 2.4. Коммуникативно-ориентированный подход в обучении иностранным языкам
- §3. Оптимизация общения с эвм:системы обработки естественного языка
- §4. Теория и практика информационно-поисковых систем
- 4.1. Основные понятия информационного поиска
- 4.2. Типы информационно-поисковых систем
- 4.3. Информационно-поисковые языки
- Глава 5 Оптимизация социальной функции языка, функционирование языка как средства воздействия § 1. Лингвистика и функционирование государства
- § 2. Лингвистические аспекты теории воздействия: языковые механизмы вариативной интерпретации действительности*
- 2.1. Предмет теории воздействия и ее истоки
- 2.2. Языковое варьирование как важнейший источник имплицитного воздействия языка на сознание. Предпосылки языкового варьирования
- 2.3. Типология языковых механизмов воздействия на сознание
- 2.4. Лингвистические аспекты теории аргументации
- 2.5. Языковые механизмы вариативной интерпретации действительности в аргументации: пример анализа
- § 3. Механизмы вариативной интерпретации действительности в нейро-лингвистическом программировании
- 3.1. Нейро-лингвистическое программирование -эффективная практика как теория
- 3.2. Нлп как психотерапевтический метод
- 3.3. Постулаты нлп по отношению к языку: взгляд лингвиста
- 3.4. Роль языковых механизмов вариативной интерпретации действительности в нлп
- §4. Политическая лингвистика
- 4.1. Предмет и задачи политической лингвистики
- 4.2. Методика контент-анализа
- 4.3. Примеры применения методики контент-анализа
- 4.4. Методика когнитивного картирования
- Глава 6 Прикладная и теоретическая лингвистика: проблемы взаимовлияния § 1. Инструментарий прикладной лингвистики в лингвистической теории
- 1.1. Традиционные проблемы лексической семантики с точки зрения когнитивного подхода*
- 1.2. Эвристики лингвистической семантики
- 1.3. Заключение
- § 2. Рефлексия лингвистической теории в прикладной лингвистике
- 2.1. Базовые теоретические оппозиции в прикладной лингвистике
- 2.2. Филологические методы анализа текста как эвристики построения систем искусственного интеллекта*
- Актуальные проблемы прикладной лингвистики
- Список сокращений
- Литература
- Словарные издания