2.2. Векторная модель текста
Большинство современных алгоритмов индексации и поиска в той или иной степени основано на векторной модели текста, предложенной Дж. Солтоном в 1973 году. В векторной модели каждому документу приписывается список терминов, наиболее адекватно отражающих его смысл. Иными словами, каждому документу соответствует вектор, размерность которого равна числу терминов, которыми можно воспользоваться при поиске .
Для дальнейшего изложения введем несколько важных понятий: словарь, поисковый образ документа, информационный массив .
Словарь – это упорядоченное множество терминов. Мощность словаря обозначается как D.
Поисковый образ документа – это вектор размерности D. Самый простой поисковый образ документа – двоичный вектор. Если термин входит в документ, то в соответствующем разряде этого двоичного вектора проставляется 1, в противном же случае – 0. Более сложные поисковые образы документов связаны с понятием относительного веса терминов или частоты встречаемости терминов .
Любой запрос также является текстом, а значит, его тоже можно представить в виде вектора q . В процессе работы поискового алгоритма происходит сравнение векторов поискового образа документа и поискового образа запроса. Чем ближе вектор документа находится к вектору запроса, тем более релевантным он является. Обычно все операции информационного поиска выполняются над поисковыми образами, но при этом их, как правило, называют просто документами и запросами.
Информационный массив называют также информационным потоком, набором документов или коллекцией документов. Описанная модель информационного массива является наиболее широко используемой. В первую очередь это связано с простотой реализации и, как следствие, возможностью быстрой обработки больших объемов документов.
Матрица информационного массива изображена на рис. 4, где Wij– вес термина tj в документе di.
Рис. 4. Матрица "термин-документ" информационного массива
Процедура обращения к информационно-поисковой системе может быть определена следующим образом: Lxq=R.
Здесь q – вектор запроса, R – вектор отклика системы на запрос.
Остановимся подробнее на статистических закономерностях, которые используются в процессе индексирования документов.
- Курс лекций
- Технологии поиска информации
- Иркутск 2012 Оглавление
- Введение
- 1. Основные принципы технологии поиска информации
- 1.1 Понятия и определения
- 1.2 Информационная потребность пользователя
- 1.3 Релевантность
- 1.4 Общая схема процесса поиска
- 2. Представление информации в ипс
- 2.1. Индексирование документов
- 2.2. Векторная модель текста
- 2.3. Статистический анализ текстов. Закон Ципфа
- 2.4. Анализ информационных массивов
- 2.4.1. Понятие относительной частоты
- 2.4.2 Распределение частоты встречаемости терминов
- 2.4.3 Определение весов терминов
- 2.4.4 Частотная модель
- 2.4.5 Вероятностная модель
- 2.4.6 Латентно-семантический анализ
- 2.5 Хранение индексированных документов
- 3 Модели поиска информации
- 3.1 Булева модель поиска
- 3.2 Функции подобия "документ-запрос"
- 3.2.1 Алгоритм расширенного булевого поиска
- 3.2.2 Алгоритм наибольшего цитирования
- 3.2.3 Векторный алгоритм поиска
- 3.2.4 Расширенный векторный алгоритм поиска
- 4. Классификация документов
- 4.1. Основные свойства классификации
- 4.2 Формирование рубрик
- 5 Эффективность поисковых систем
- 5.1 Критерии эффективности
- 5.2. Полнота и точность поиска
- 5.3. Недостатки основных характеристик
- 6 Современные информационно-поисковые системы
- 6.1. Словарные информационно-поисковые системы
- 6.2 Классификационные информационно-поисковые системы
- 6.3. Метапоисковые системы
- Заключение
- Список рекомендуемой литературы
- Экзаменационные вопросы