logo
lk_poisk_ex

2.2. Векторная модель текста

Большинство современных алгоритмов индексации и поиска в той или иной степени основано на векторной модели текста, предложенной Дж. Солтоном в 1973 году. В векторной модели каждому документу приписывается список терминов, наиболее адекватно отражающих его смысл. Иными словами, каждому документу соответствует вектор, размерность которого равна числу терминов, которыми можно воспользоваться при поиске .

Для дальнейшего изложения введем несколько важных понятий: словарь, поисковый образ документа, информационный массив .

Словарь – это упорядоченное множество терминов. Мощность словаря обозначается как D.

Поисковый образ документа – это вектор размерности D. Самый простой поисковый образ документа – двоичный вектор. Если термин входит в документ, то в соответствующем разряде этого двоичного вектора проставляется 1, в противном же случае – 0. Более сложные поисковые образы документов связаны с понятием относительного веса терминов или частоты встречаемости терминов .

Любой запрос также является текстом, а значит, его тоже можно представить в виде вектора q . В процессе работы поискового алгоритма происходит сравнение векторов поискового образа документа и поискового образа запроса. Чем ближе вектор документа находится к вектору запроса, тем более релевантным он является. Обычно все операции информационного поиска выполняются над поисковыми образами, но при этом их, как правило, называют просто документами и запросами.

Информационный массив называют также информационным потоком, набором документов или коллекцией документов. Описанная модель информационного массива является наиболее широко используемой. В первую очередь это связано с простотой реализации и, как следствие, возможностью быстрой обработки больших объемов документов.

Матрица информационного массива изображена на рис. 4, где Wij– вес термина tj в документе di.

Рис. 4. Матрица "термин-документ" информационного массива

Процедура обращения к информационно-поисковой системе может быть определена следующим образом: Lxq=R.

Здесь q – вектор запроса, R – вектор отклика системы на запрос.

Остановимся подробнее на статистических закономерностях, которые используются в процессе индексирования документов.