2. Представление информации в ипс
Существует два базовых подхода к поиску информации. Первыйзаключается в использовании специальных тематических каталогов и реализуется в классификационных ИПС. Для поиска документа в этом случае используются его название, выходные данные, тематика и другие реквизиты.
Второй подход, применяемый в словарных ИПС, использует для поиска словари, составленные из терминов, описывающих содержание индексированных документов, с которыми работают программные средства, называемые поисковыми машинами.
Наиболее продуктивной схемой поиска является комплексноеиспользование обоих основных подходов.
Независимо от типа поисковой системы, все операции информационного поиска можно разбить на четыре группы:
−информационный анализ,
−хранение информации,
−поисковые операции,
−выдача информации.
Общая схема процесса поиска в информационно-поисковой системе представлена на рис. 3.
Рис.3. Процесс поиска документа
Содержание документов и запросов в информационно-поисковых системах обычно описывается некоторыми наборами терминов, состоящими из отдельных слов или словосочетаний. Часто для характеристики терминов используются их веса, которые отражают предполагаемую важность каждого из терминов. Решение о выдаче того или иного документа принимается в результате сравнения наборов терминов, относящихся соответственно к документам и запросам. Вниманию пользователя предлагаются те документы, наборы терминов которых совпадают с наборами терминов запросов.
Наряду с отбором из документов определенных терминов существуют и другие способы их описания. Они подробно рассматриваются в следующих разделах. Здесь же важно отметить, что основа любого описания документа – это термины, входящие в его состав.
- Курс лекций
- Технологии поиска информации
- Иркутск 2012 Оглавление
- Введение
- 1. Основные принципы технологии поиска информации
- 1.1 Понятия и определения
- 1.2 Информационная потребность пользователя
- 1.3 Релевантность
- 1.4 Общая схема процесса поиска
- 2. Представление информации в ипс
- 2.1. Индексирование документов
- 2.2. Векторная модель текста
- 2.3. Статистический анализ текстов. Закон Ципфа
- 2.4. Анализ информационных массивов
- 2.4.1. Понятие относительной частоты
- 2.4.2 Распределение частоты встречаемости терминов
- 2.4.3 Определение весов терминов
- 2.4.4 Частотная модель
- 2.4.5 Вероятностная модель
- 2.4.6 Латентно-семантический анализ
- 2.5 Хранение индексированных документов
- 3 Модели поиска информации
- 3.1 Булева модель поиска
- 3.2 Функции подобия "документ-запрос"
- 3.2.1 Алгоритм расширенного булевого поиска
- 3.2.2 Алгоритм наибольшего цитирования
- 3.2.3 Векторный алгоритм поиска
- 3.2.4 Расширенный векторный алгоритм поиска
- 4. Классификация документов
- 4.1. Основные свойства классификации
- 4.2 Формирование рубрик
- 5 Эффективность поисковых систем
- 5.1 Критерии эффективности
- 5.2. Полнота и точность поиска
- 5.3. Недостатки основных характеристик
- 6 Современные информационно-поисковые системы
- 6.1. Словарные информационно-поисковые системы
- 6.2 Классификационные информационно-поисковые системы
- 6.3. Метапоисковые системы
- Заключение
- Список рекомендуемой литературы
- Экзаменационные вопросы