5.2. Полнота и точность поиска
Коэффициент полноты– это доля полученных релевантных документов посравнению с их общим количеством в поисковом массиве. Коэффициент точности это доля релевантных документов среди выданных.
Введем обозначения :
a – количество полученных в результате поиска релевантных документов,
b – количество нерелевантных документов, выданных ИПС,
c – число релевантных документов в поисковом массиве, не выданных ИПС,
d – число невыданных релевантных документов.
Табл. 2 иллюстрирует подобное разделение документов на подмножества.
Таблица 2. Разделение документов в процессе поиска
Тогда коэффициент полноты1 R и коэффициент точности2 P можно определить по формулам:
Полнота – англ. Recall(1). Точность – англ. Precision (2). Выпадение – англ. Fallout (3). Ошибка – англ. Error (4).
Часто используются дополнительные меры оценки:
– коэффициент выпадения(3)F , характеризующий количество возвращаемых системой нерелевантных документов;
– коэффициент ошибки(4)E, описывающий правильность определения поисковой системой релевантности документов:
Если исследовать эффективность поисковой системы с помощью нескольких запросов (обозначим общее число запросов через k), то для данного запросаiкоэффициенты полнотыRiи точностиPiможно записать в виде:
Из приведенных уравнений можно получить среднюю величину, которая отражает эффективность системы, ожидаемую для случая среднего пользователя. Для этого возьмем среднее арифметическое по kвыборочным запросам:
Поскольку значения коэффициентов полноты Riи точностиPi определяются однозначно для каждого из запросов пользователей, это позволяет вычислить средние значения для фиксированных интервалов полноты. Кривая, полученная в результате усреднения, называется кривая "полнота-точность" поисковой системы (рис. 12). Левый край этой кривой соответствует узким, специфичным формулировкам запросов, а правый - определяется широкими, общим запросами.
Рис.12. Кривая полнота-точность.
Кривые “полнота-точность” могут использоваться для оценки качества работы либо нескольких ИПС, либо одной, работающей в разных условиях. При этом кривые, полученные для двух систем, могут быть наложены на один график, что позволяет определить, какая из систем лучше и в какой степени . Очевидно, что кривая, расположенная ближе к правому верхнему углу графика (рис.12), где полнота и точность максимальны, указывает на лучшее качество работы.
В идеальной ИПС коэффициенты полноты и точности равны единице. В реальных поисковых системах коэффициент полноты поиска может достигать значений 0,7 – 0,9, а коэффициент точности находится в интервале 0,1 – 1,0 .
В дополнение к стандартным мерам полноты и точности, значения которых зависят от размера множества выданных документов, можно использовать показатели, не зависящие от выданного множества. В частности, для систем, в которых полученные документы ранжируются в порядке уменьшения сходства между документом и запросом, существуют меры оценки, основанные на рангах релевантных документов. Такие функции, называемые нормализованной полнотой и нормализованной точностью, имеют вид:
- Курс лекций
- Технологии поиска информации
- Иркутск 2012 Оглавление
- Введение
- 1. Основные принципы технологии поиска информации
- 1.1 Понятия и определения
- 1.2 Информационная потребность пользователя
- 1.3 Релевантность
- 1.4 Общая схема процесса поиска
- 2. Представление информации в ипс
- 2.1. Индексирование документов
- 2.2. Векторная модель текста
- 2.3. Статистический анализ текстов. Закон Ципфа
- 2.4. Анализ информационных массивов
- 2.4.1. Понятие относительной частоты
- 2.4.2 Распределение частоты встречаемости терминов
- 2.4.3 Определение весов терминов
- 2.4.4 Частотная модель
- 2.4.5 Вероятностная модель
- 2.4.6 Латентно-семантический анализ
- 2.5 Хранение индексированных документов
- 3 Модели поиска информации
- 3.1 Булева модель поиска
- 3.2 Функции подобия "документ-запрос"
- 3.2.1 Алгоритм расширенного булевого поиска
- 3.2.2 Алгоритм наибольшего цитирования
- 3.2.3 Векторный алгоритм поиска
- 3.2.4 Расширенный векторный алгоритм поиска
- 4. Классификация документов
- 4.1. Основные свойства классификации
- 4.2 Формирование рубрик
- 5 Эффективность поисковых систем
- 5.1 Критерии эффективности
- 5.2. Полнота и точность поиска
- 5.3. Недостатки основных характеристик
- 6 Современные информационно-поисковые системы
- 6.1. Словарные информационно-поисковые системы
- 6.2 Классификационные информационно-поисковые системы
- 6.3. Метапоисковые системы
- Заключение
- Список рекомендуемой литературы
- Экзаменационные вопросы