logo
filologi_1_kurs / языкознание / рождственский

Лингвистическая информатика

Теория информационного обслуживания как часть прикладной филологии мало касается вопросов лингвистической информатики. Независимо от типа организации информационной службы предметом непосредственно словарной разработки является текст. Предметом прикладной филологии в информационном обслуживании являются большие классы текстов в их движении. Предмет лингвистической информатики составляет отдельный текст, его форма и словарь.

При обработке отдельного текста необходимо решить несколько практических задач: расчленить текст семантически, по уровням обобщения содержащегося в нём смысла, и отдельно обработать и представить абоненту каждый из этих уровней.

Начальным уровнем обобщения содержания является оригинальный текст в виде публикации или рукописи. В оригинальном тексте, который в лингвистической информатике называют первичным текстом(или первичным документом), смысл максимально детализирован. Максимальная детализированность смысла здесь понимается относительно его возможных обобщений, а не абсолютно. Это значит, что с точки зрения лингвистической информатики данное содержание, отнесенное ко всей совокупности композиционных форм и лексических единиц, составляющих эти формы, сводится к общему содержанию текста. Поэтому любой оригинальный текст, в любом жанровом и композиционном построении, независимо от степени содержащегося в нем научного и философского обобщения, считается максимально детализированным.

Задачу, стоящую перед лингвистической информатикой при обработке текста, нередко называют компрессией текста. Информационный работник "выбрасывает" из содержания оригинального текста все то, что не является самоописанием этого текста. Дело в том, что по законам построения речи всякий текст должен содержать описание предмета речи и описание самой речи, т.е. данного текста. Границы между этими двумя областями содержания текста во многом зависят от того, кто прочитывает текст. Например, если текст по математике читает историк, то он установит только, что данный текст - математический, возможно, назовет и раздел математики, к которому данный текст отнесен. Математик же установит более точный адрес и поймет предметное содержание текста. Нередко при восприятии текста специалистом адрес текста определяется через предметное содержание. Информационный работник фактически находит адрес текста по содержанию. Его задача сводится к тому, чтобы как можно более точно отделить предметное содержание от адресного.

Всякий письменный текст имеет формуляр, т.е. он строится из реквизитов - графически отдельных частей, каждая из которых имеет свое назначение и место в тексте. Так, книжная публикация имеет следующие реквизиты: имя автора, заглавие, выходные данные (место издания, название издательства и т.п.) и текст. Слово "текст", как видно, употребляется в двух смыслах: текст как целое, т.е. совокупность реквизитов, и текст как отдельный реквизит. В тексте-реквизите дано само предметное содержание публикации.

Выделение в текстах книжных публикаций таких реквизитов, как имя автора, заглавие, выходные данные, предназначено в основном для самоописания текста, хотя имя автора или название издательства могут указать искушенному читателю на характер и тип предметного содержания. "Нетекстовые" реквизиты текстов выделились в практике библиографических и архивных классификаций, предъявляющих свои требования к произведениям словесности.

Поскольку информационное обслуживание продолжает библиографические и архивные классификации, реквизиты текста целиком и без изменений входят в информационное описание текста. К этим реквизитам информационный работник лишь добавляет адрес хранения, который он заимствует из библиографического описания текста.

Творческая часть работы информационного работника - изучение тех реквизитов текста, где предметное содержание слито с адресным. Такими реквизитами первичного текста являются заголовок и собственно текст. Найти адресное содержание и отделить его от предметного составляет задачу, выходящую за пределы компетенции специалистов в области предметного содержания текста.

Статистическое изучение текстов свидетельствует, что на область предметного содержания текста указывают наиболее частотные существительные или другие лексические единицы с предметным значением. Установлено, что сравнением данных анализа разных текстов можно определить не только тип предметного содержания, но и характер аргументации, время составления текста и даже авторство. Это значит, что предметное содержание весьма тесно слито с адресом текста, и наоборот, адресное содержание текста разъясняется его предметным содержанием.

Этим свойством текста пользуется лингвистическая информатика. Современные библиографические и архивные классификации содержат набор адресных признаков, по которым устанавливается некоторая часть предметного содержания текста. Однако это содержание раскрывается слишком обобщенно для читателя. При обилии текстов на одну и ту же тему читатель может выбрать необходимый ему оригинальный источник, только если просмотрит достаточно большой массив текстов. Поиск нужной публикации или документа начинает занимать больше времени, чем само чтение" Поэтому, детализируя адресное содержание, информационный работник конкретизирует и предметное содержание.

Таким образом, адресное содержание текста пополняется с помощью предметного. Никакого сокращения текста не происходит. Наоборот, создавая развернутые адресные описания оригинальных текстов, информационный работник добавляет к общему объему текстов новые.