4. Классификация документов
Во время поиска часто бывает важно получить по возможности наибольшее значение полноты, то есть выдать максимальную часть релевантных документов, имеющихся в массиве. Исчерпывающий поиск может понадобиться, например, экспертам организации, регистрирующей изобретения, которым необходимо составить обзор всех существующих патентов. Увеличение числа релевантных документов обычно приводит к выдаче дополнительных нерелевантных документов, то есть снижается его точность (см. часть 1 методических указаний).
Для улучшения полноты поиска необходимы дополнительные совпадения терминов запроса и документа. Это достигается использованием дополнительных терминов-заместителей. Термины-заместители либо добавляются к уже существующим терминам запросов и документов, либо используются вместо них. Наиболее известным методом здесь является применение словаря синонимов (тезауруса), в котором термины сгруппированы вклассы синонимии (классы эквивалентности).
С помощью тезауруса можно заменить каждый имеющийся в начальный момент поиска термин идентификаторами соответствующих классов тезауруса. При использовании другого подхода идентификаторы этих классов можно добавлять к исходным терминам. В любом случае цель состоит в том, чтобы получить дополнительные совпадения для тех терминов запроса и документа, которые отнесены к одним и тем же классам тезауруса. Сами эти термины могут быть и различными .
В ИПС в основном применяется два типа классификаций: терминов и документов.
Целью классификации терминовявляется группировка терминов в синонимические классы в расчете повысить вероятность совпадения терминов запроса и документа. Классификация документов способна улучшить результаты и оперативность поиска за счет обращения только к определенным частям информационного массива. Эти два типа классификаций взаимосвязаны: присваиваемые документам термины при формировании их поисковых образов служат основой для построения классов, получаемых в результате группировки документов.
При хорошей классификации терминов обычно удается сгруппировать различные низкочастотные родственные термины в общие классы тезауруса. Термины, входящие в один класс, могут заменять друг друга в процессе поиска, следовательно, можно ожидать улучшения полноты выдачи. Классификации документов позволяют сузить область поиска до наиболее существенных классов документов и обеспечить высокую точность. При совместном использовании систематизированных массивов данных и тщательно проработанного тезауруса можно получить высокие показатели и по полноте, и по точности поиска.
В основе любой классификациилежит принцип распределения информационных объектов (терминов или документов) по некоторым классам. Совокупность таких классов называетсяклассификатором, а сами классы –разделами классификатора, или рубриками. Классификаторы обычно разрабатываются вручную. Примерами классификаций могут служить общепринятые библиотечные классификации УДК (универсальная десятичная классификация) и ББК (библиотечно-библиографическая классификация) .
Класс определяется как множество терминов, обозначающих некоторую предметную область. В процессе классификации каждому информационному объекту для обозначения его смыслового содержания (тематики) приписывается идентификатор какого-либо класса .
Разбиение на предметные классы или рубрики должно быть предсказуемым, а подчиненные тематические классы легко отличимы от вышестоящих. От четкости такой иерархической структуры зависит эффективность регулирования глубины поиска путем расширения или сужения запроса.
Маловероятно, чтобы можно было найти такую структуру, которая могла бы удовлетворять этим требованиям. Строго заданные иерархические отношения между тематическими классами призваны подчеркнуть определенные типы предметных ассоциаций и одновременно пренебречь другими. Статичный характер общепринятых классификационных схем порождает проблемы в случае расширение предметных областей и развития знаний. Существующие иерархические схемы весьма сложны, и на практике часто оказываются обязательными ручные (неавтоматические) процессы классификации. Это приводит к тому, что согласованности между разными системами классификации и поиска в процессах анализа содержания и распределения документов по рубрикам добиться трудно.
- Курс лекций
- Технологии поиска информации
- Иркутск 2012 Оглавление
- Введение
- 1. Основные принципы технологии поиска информации
- 1.1 Понятия и определения
- 1.2 Информационная потребность пользователя
- 1.3 Релевантность
- 1.4 Общая схема процесса поиска
- 2. Представление информации в ипс
- 2.1. Индексирование документов
- 2.2. Векторная модель текста
- 2.3. Статистический анализ текстов. Закон Ципфа
- 2.4. Анализ информационных массивов
- 2.4.1. Понятие относительной частоты
- 2.4.2 Распределение частоты встречаемости терминов
- 2.4.3 Определение весов терминов
- 2.4.4 Частотная модель
- 2.4.5 Вероятностная модель
- 2.4.6 Латентно-семантический анализ
- 2.5 Хранение индексированных документов
- 3 Модели поиска информации
- 3.1 Булева модель поиска
- 3.2 Функции подобия "документ-запрос"
- 3.2.1 Алгоритм расширенного булевого поиска
- 3.2.2 Алгоритм наибольшего цитирования
- 3.2.3 Векторный алгоритм поиска
- 3.2.4 Расширенный векторный алгоритм поиска
- 4. Классификация документов
- 4.1. Основные свойства классификации
- 4.2 Формирование рубрик
- 5 Эффективность поисковых систем
- 5.1 Критерии эффективности
- 5.2. Полнота и точность поиска
- 5.3. Недостатки основных характеристик
- 6 Современные информационно-поисковые системы
- 6.1. Словарные информационно-поисковые системы
- 6.2 Классификационные информационно-поисковые системы
- 6.3. Метапоисковые системы
- Заключение
- Список рекомендуемой литературы
- Экзаменационные вопросы