lk_poisk_ex

3.2 Функции подобия "документ-запрос"

Негативные свойства, характерные для булевого алгоритма поиска, обусловлены употреблением в запросе логических операторов, приводящих к жестким условиям поиска. Одним из решений этой проблемы является отказ от их использования и, как следствие, разработка каких-либо других алгоритмов поиска.

Многие современные ИПС реализуют модели поиска информации, основанные на вычислении мер близости документов и запросов . ИПЯ, используемые в таких моделях, называются языками типа "найти похожее" (языки типа "Like This"). В этих языках необязательно формулировать запросы с помощью булевых операторов.

Для вычисления меры подобия документов и запросов существует более тридцати различных алгоритмов[,].Мы рассмотрим четыре алгоритма:

расширенного булевого поиска,
наибольшего цитирования,
IDF TF × алгоритм,
расширенный векторный алгоритм поиска.

Алгоритмы расширенного булевого поискаинаибольшего цитирования основаны на метаинформации гипертекстовых страниц.

IDF TF × алгоритмиспользует статистические частотные оценки встречаемости терминов.

Расширенный векторный алгоритмработает как с частотными оценками, так и с гипертекстами.

Введем некоторые обозначения:

Для повышения качества поиска в приведенном выражении вместо единицы можно также использовать вес термина в документе W _{j, i}

IL – англ. Incoming Hyperlink – входящая гиперссылка.

Содержание