2.2. Основные области приложения структурно-вероятностной модели языка
Лингвистический мониторинг функционирования языка. Задача лингвистического мониторинга заключается в выявлении общих особенностей функционирования языковой системы в конкретном типе дискурса (научном, политическом дискурсе, текстах средств массовой информации и т.д.). В качестве предмета лингвистического мониторинга могут выступать такие феномены естественного языка, как типы языковых ошибок, сфера иностранных заимствований, новые слова и значения, новые (креативные, творческие — не конвенциональные) метафоры, тематическое распределение лексики (например, лексика временных и пространственных отношений, лексика выражения чувств и эмоций, спортивная лексика и т.д.), особенности использования в текстах тех или иных грамматических форм, синтаксических конструкций. Технология лингвистического мониторинга основывается на двух важнейших предпосылках: во-первых, на регулярности и периодичности анализируемых данных, и, во-вторых — на достаточно большом объеме привлекаемого материала, на репрезентативности выборки данных. В силу этого лингвистический мониторинг невозможен без соответствующего компьютерного обеспечения. Использование компьютерной технологии позволяет давать
10)Данные о частотности приводятся по корпусу текстов по современной публицистике (отдел экспериментальной лексикографии Института русского языка РАН).
оценку исследуемому феномену, выявляя его распределение по времени, по источникам, авторам и т.д.
Информация о статистических закономерностях функционирования языковой системы лежит в основе некоторых методик анализа данных, разрабатываемых в политической лингвистике. К ним относится, в частности, методика контент-анализа, используемая для выявления структуры и состояния общественного сознания. При помощи контент-анализа появляется возможность по частоте употребления лексем реконструировать, например, ценностные ориентации общества, выявлять актуальные темы публичной политики, оценивать динамику изменения тематики политических дискуссий и т.д. (см. подробнее §4 главы 5).
Компьютерное моделирования языка и речи. Другая важная область прикладного использования знаний о частоте использования тех или иных языковых структур — компьютерная лингвистика. Многие компьютерные программы, связанные с функционированием языка, используют алгоритмы, основывающиеся на данных о частоте употребления фонем, морфем, лексических единиц и синтаксических конструкций. Например, программы автоматической коррекции орфографии содержат словари, как правило, только наиболее частотных лексем. Редкие слова пользователь может вводить в свой индивидуальный словарь. Аналогичные словари используются в программах автоматического распознавания письменного текста и речи (типа Fine Reader). Абсолютная частота появления лексем (особенно терминологической лексики) используется в системах автоматического аннотирования и реферирования. Так, согласно статистико-дистрибутивному методу автоматического индексирования информативными для данного текста считаются скопления слов, расположенных достаточно близко друг от друга, частота которых превосходит некоторую пороговую величину, например, среднюю частоту слов в документе (метод ACSI-Matic).
Дешифровка кодированного текста. В процессе дешифровки также могут использоваться данные о частоте употребления графем, морфем и слов, а также их взаимном расположении. К настоящему времени разработаны продуктивные алгоритмы дешифровки, основанные на частоте и дистрибуции элементов кодированного текста; ср. деши-Фровочные алгоритмы Б. В. Сухотина, статистико-комбинаторный метод Н.Д.Андреева. Близки к задачам дешифровки формальные процедуры «открытия» морфемного состава неописанного языка, предложенные 3. Харрисом.
Авторизация/атрибуция текста. Проблема авторизации текста относится к числу классических проблем филологического исследования. Часто она рассматривается в рамках «количественной стилистики» — стилеметрии. Авторизация включает как литературную, так и лингвистическую составляющую. В. В. Виноградов в книге «Проблема авторства и теория стилей» сформулировал типологию факторов атрибуции текста [Виноградов 1961]. К субъективным факторам он относит: а) субъективно-коммерческие; б) субъективно-конъюнктурные; в) субъективно-эстетические; г) субъективно-психологические; д) субъективно-идеологические факторы. Есть и объективные факторы: а) документально-рукописные (археологические); б) исторические (биографии, свидетельства современников); в) историко-идеологические и сопоставительно-идеологические; г) историко-стилистические; д) художественно-стилистические; е) лингвостилистические. Однако чисто филологическое направление авторизации не позволяет построить объективные операциональные критерии анализа и атрибуции текста. К сожалению, большинство факторов, на которые обращает внимание В. В. Виноградов, плохо формализуемы. Иными словами, разные эксперты, используя одни и те же факторы, могут сделать совершенно различные выводы.
Перспектива объективизации экспертного знания была обнаружена в использовании количественных, статистических методов анализа текста. Пионером в этой области стал Н. А. Морозов, перу которого принадлежит опубликованная в 1915 г. работа «Лингвистические спектры. Средство для отличия плагиатов от истинных произведений того или другого известного автора. Стилеметрический этюд». Существенно, что в квантитативном анализе Морозов предлагал опираться не на тематически связанную лексику — слова, определяемые спецификой описываемого материала, его предметной и проблемной ориентацией, — а на служебные слова и слова тематически нейтральные. Дело в том, что именно особенности употребления служебных слов, лексем с общей семантикой, не привязанной к тематике художественного произведения, формируют авторский стиль и практически не поддаются имитации.
В настоящее время развитие методик авторизации текста наиболее продуктивно проходит в рамках стилеметрии. Лингвистические основания авторизации могут быть различны, но использование количественных методов анализа оказывается неизбежным. Одно из перспективных направлений в этой области — привлечение к авторизации текста теории распознавания образов. При таком подходе стиль описывается как пространство количественно выразимых параметров — средняя длина предложения, количество вложенных синтаксических структур, количество слов в предложении, количество предложений в абзаце и т.д. Далее каждый анализируемый текст выражается через вектор, координаты которого задаются значениями выбранных параметров. Сходство векторов определяет и сходство стилей11).
Разрабатываются подходы, основанные на изучении количественных особенностей реализации синтаксических структур [Севбо 1981], а также на выявлении некоторых особенностей формальной структуры текста, связанных с выражением типов чужой и авторской речи. Соотношение чужой речи (прямой, смешанной, вложенной) с авторской также
11)Такой метод авторизации предложен в ряде работ М. В. Марусенко: [Марусенко 1990; Марусенко 1996].
оказывается стилеобразующим фактором. Эта характеристика стиля отражена в «формально-пунктуационном» методе структуризации текста, который реализован в компьютерной системе DISSKOTE [Гринбаум 1996]. Ниже разбирается пример авторской экспертизы текста, основанный на методике анализа квазисинонимичных лексем.
- § 2. Рефлексия лингвистической теории в прикладной лингвистике
- Предисловие
- Глава 1 Объект и методы прикладной лингвистики § 1. Понимания термина «прикладная лингвистика»
- § 2. Круг задач прикладной лингвистики
- §3. Методы прикладной лингвистики
- Глава 2 Оптимизация когнитивной функции языка § 1. Компьютерная лингвистика
- 1.1. Компьютерная лингвистика как прикладная лингвистическая дисциплина
- 1.2. Когнитивный инструментарий компьютерной лингвистики
- 1.3. Некоторые направления компьютерной лингвистики
- 1.4. Гипертекстовые технологии представления текста
- § 2. Прикладные аспекты квантитативной лингвистики
- 2.1. Проблематика квантитативной лингвистики с теоретической и прикладной точек зрения
- 2.2. Основные области приложения структурно-вероятностной модели языка
- 2.3. Авторизация текста: пример экспертизы
- § 3. Психолингвистика как приложение лингвистики
- Глава 3 Оптимизация эпистемической функции языка §1. Лексикография
- 1.1. Из истории словарного дела
- 1.2. Базовые параметры типологизации словарей
- 1.3. Основные структурные компоненты словаря
- 1.4. Основные структурные компоненты (зоны) словарной статьи
- 1.5. Компьютерная лексикография
- § 2. Терминоведение и терминография
- 2.1. Исходные понятия
- 2.2. Важнейшие направления деятельности в терминоведении и терминографии
- 2.3. Институциональный аспект терминоведения и терминографии
- 2.4. Лингвистическая терминология как особая терминосистема*
- 2.5. Миры лингвистической терминологии
- Термины семиотики19'
- Термины прагматики
- Термины теории диалога, термины теории речевой коммуникации
- Термины логического анализа естественного языка
- Термины прикладной лингвистики
- Термины теории речевых актов
- Термины искусственного интеллекта
- Термины когнитивной науки
- 2.6. Лингвистическая терминография
- § 3. Корпусная лингвистика
- 3.1. Языковой материал в лингвистическом исследовании
- 3.2. Исходные понятия корпусной лингвистики
- 3.3. Требования к корпусу текстов с точки зрения пользователя
- 3.4. Опыт разработки корпусов текстов
- 3.5. Заключение
- Глава 4 Оптимизация функционирования языка как средства передачи информации § 1. Перевод как прикладная лингвистическая дисциплина*
- 1.1. Лингвистические и нелингвистические аспекты перевода
- 1.2. Виды перевода
- 1.3. «Естественный» перевод: лингвистические проблемы
- 1.4. Машинный перевод
- § 2. Теория и методика преподавания языка*
- 2.1. Грамматико-переводной метод в обучении иностранным языкам
- 2.2. Прямой метод обучения иностранному языку
- 2.3. Аудиолингвальный и аудиовизуальный методы обучения иностранным языкам
- 2.4. Коммуникативно-ориентированный подход в обучении иностранным языкам
- §3. Оптимизация общения с эвм:системы обработки естественного языка
- §4. Теория и практика информационно-поисковых систем
- 4.1. Основные понятия информационного поиска
- 4.2. Типы информационно-поисковых систем
- 4.3. Информационно-поисковые языки
- Глава 5 Оптимизация социальной функции языка, функционирование языка как средства воздействия § 1. Лингвистика и функционирование государства
- § 2. Лингвистические аспекты теории воздействия: языковые механизмы вариативной интерпретации действительности*
- 2.1. Предмет теории воздействия и ее истоки
- 2.2. Языковое варьирование как важнейший источник имплицитного воздействия языка на сознание. Предпосылки языкового варьирования
- 2.3. Типология языковых механизмов воздействия на сознание
- 2.4. Лингвистические аспекты теории аргументации
- 2.5. Языковые механизмы вариативной интерпретации действительности в аргументации: пример анализа
- § 3. Механизмы вариативной интерпретации действительности в нейро-лингвистическом программировании
- 3.1. Нейро-лингвистическое программирование -эффективная практика как теория
- 3.2. Нлп как психотерапевтический метод
- 3.3. Постулаты нлп по отношению к языку: взгляд лингвиста
- 3.4. Роль языковых механизмов вариативной интерпретации действительности в нлп
- §4. Политическая лингвистика
- 4.1. Предмет и задачи политической лингвистики
- 4.2. Методика контент-анализа
- 4.3. Примеры применения методики контент-анализа
- 4.4. Методика когнитивного картирования
- Глава 6 Прикладная и теоретическая лингвистика: проблемы взаимовлияния § 1. Инструментарий прикладной лингвистики в лингвистической теории
- 1.1. Традиционные проблемы лексической семантики с точки зрения когнитивного подхода*
- 1.2. Эвристики лингвистической семантики
- 1.3. Заключение
- § 2. Рефлексия лингвистической теории в прикладной лингвистике
- 2.1. Базовые теоретические оппозиции в прикладной лингвистике
- 2.2. Филологические методы анализа текста как эвристики построения систем искусственного интеллекта*
- Актуальные проблемы прикладной лингвистики
- Список сокращений
- Литература
- Словарные издания