6.3. Метапоисковые системы
Любая поисковая система имеет собственный информационный массив, который состоит из множества доступных для поиска документов. Это множество документов всегда ограниченно. Локальные поисковые системы по определению работают с некоторым фиксированным объемом информационных объектов. Число документов в сети Интернет постоянно растет, однако скорость увеличения числа доступных для поиска документов всегда меньше скорости их появления в сети.
В настоящее время ни одна ИПС не может охватить все ресурсы в Интернет.
Поэтому поиск с использованием какой-либо одной ИПС часто не может полностью удовлетворить информационную потребность пользователя. В такой ситуации приходится повторять один и тот же запрос в нескольких поисковых системах. Для увеличения широты охвата и расширения возможностей поиска, а также для облегчения работы пользователей были разработаны так называемые метапоисковые системы.
Метапоисковые системы не имеют собственных баз данных поисковых образов документов, средств индексации и классификации. При поиске они используют ресурсы других поисковых систем. За счет одновременного обращения к взаимно дополняющим друг друга базам данных нескольких ИПС в метапоисковых системах достигаются максимальные значения полноты поиска .
Рис.15. Структура метапоисковой ИПС.
Порядок работы с метапоисковой системой, структура которой представлена на рис. 15, можно упрощенно описать следующим образом. Пользователь в соответствии со своей информационной потребностью составляет запрос на поиск. Метапоисковая система передает этот запрос другим ИПС, которые и осуществляют поиск по своим информационным массивам. Затем результаты поиска в виде списков найденных документов от различных ИПС поступают обратно в метапоисковую систему, и в ней формируется итоговый список документов, который предлагается вниманию пользователя. Найденные документы ранжируются в порядке их следования в результатах поиска каждой из ИПС. При этом существенно повышается релевантность тех документов, которые были одновременно найдены в нескольких ИПС.
Главная проблема, связанная с реализацией данного алгоритма, заключается в том, что поисковые системы используют разные методы индексации, имеют различные информационные массивы и, как следствие, базы индексированных документов различной полноты. Поэтому запрошенная пользователем информация может быть найдена в одной системе и не найдена в другой. В этом случае можно получить несколько полностью релевантных документов от одной ИПС, которые будут перемешаны с частично релевантными документами из другой (например, в случае частичного совпадения документа и запроса).
Современные метапоисковые системы позволяют преодолеть эти трудности. Во-первых, каждая ИПС придерживается (в течение достаточно долгого времени) собственных правил ранжирования результатов поиска, что используется метапоисковой машиной при определении релевантности документов, полученных от разных систем. На значение релевантности также влияет рейтинг ИПС, определяемый качеством поиска в ней, и общее количество документов, найденных по запросу (это также позволяет оценить полноту базы поисковых образов конкретной ИПС) .
Наконец, главный метод корректного ранжирования заключается в статистическом анализе результатов поиска в различных системах. Обычно результаты поиска содержат названия (заголовки) и краткие описания (аннотации) найденных документов. Метапоисковая машина определяет частоты встречаемости терминов запроса в заголовках и аннотациях документов и присваивает каждому документу некоторый вес, используемый затем при ранжировании. Подобная обработка позволяет не только понижать ранг документов, в описании которых вообще нет ключевых слов, как потенциально нерелевантных запросу, но и находить строгое соответствие в том случае, если все ключевые слова встречаются в описании документа.
На схеме (рис. 15) пользователь помимо запроса к поисковой системе определяет стратегию поиска. Формирование стратегии поиска предполагает выбор пользователем типа информационных объектов, которые нужно найти с помощью ИПС (файлы, новостные сообщения, гипертекстовые документы и др.), выбор области поиска (русскоязычная часть Интернета, англоязычная часть или глобальный поиск по всей всемирной сети), а также выбор ИПС, к которым должна обращаться во время поиска метапоисковая система. В результате объединения текста запроса на ИПЯ и ряда поисковых предписаний формируется так называемый расширенный запрос, который затем ретранслируется метапоисковой машиной другим ИПС.
- Курс лекций
- Технологии поиска информации
- Иркутск 2012 Оглавление
- Введение
- 1. Основные принципы технологии поиска информации
- 1.1 Понятия и определения
- 1.2 Информационная потребность пользователя
- 1.3 Релевантность
- 1.4 Общая схема процесса поиска
- 2. Представление информации в ипс
- 2.1. Индексирование документов
- 2.2. Векторная модель текста
- 2.3. Статистический анализ текстов. Закон Ципфа
- 2.4. Анализ информационных массивов
- 2.4.1. Понятие относительной частоты
- 2.4.2 Распределение частоты встречаемости терминов
- 2.4.3 Определение весов терминов
- 2.4.4 Частотная модель
- 2.4.5 Вероятностная модель
- 2.4.6 Латентно-семантический анализ
- 2.5 Хранение индексированных документов
- 3 Модели поиска информации
- 3.1 Булева модель поиска
- 3.2 Функции подобия "документ-запрос"
- 3.2.1 Алгоритм расширенного булевого поиска
- 3.2.2 Алгоритм наибольшего цитирования
- 3.2.3 Векторный алгоритм поиска
- 3.2.4 Расширенный векторный алгоритм поиска
- 4. Классификация документов
- 4.1. Основные свойства классификации
- 4.2 Формирование рубрик
- 5 Эффективность поисковых систем
- 5.1 Критерии эффективности
- 5.2. Полнота и точность поиска
- 5.3. Недостатки основных характеристик
- 6 Современные информационно-поисковые системы
- 6.1. Словарные информационно-поисковые системы
- 6.2 Классификационные информационно-поисковые системы
- 6.3. Метапоисковые системы
- Заключение
- Список рекомендуемой литературы
- Экзаменационные вопросы