logo
lk_poisk_ex

5.2. Полнота и точность поиска

Коэффициент полноты– это доля полученных релевантных документов посравнению с их общим количеством в поисковом массиве. Коэффициент точности это доля релевантных документов среди выданных.

Введем обозначения :

a – количество полученных в результате поиска релевантных документов,

b – количество нерелевантных документов, выданных ИПС,

c – число релевантных документов в поисковом массиве, не выданных ИПС,

d – число невыданных релевантных документов.

Табл. 2 иллюстрирует подобное разделение документов на подмножества.

Таблица 2. Разделение документов в процессе поиска

Тогда коэффициент полноты1 R и коэффициент точности2 P можно определить по формулам:

Полнота – англ. Recall(1). Точность – англ. Precision (2). Выпадение – англ. Fallout (3). Ошибка – англ. Error (4).

Часто используются дополнительные меры оценки:

коэффициент выпадения(3)F , характеризующий количество возвращаемых системой нерелевантных документов;

коэффициент ошибки(4)E, описывающий правильность определения поисковой системой релевантности документов:

Если исследовать эффективность поисковой системы с помощью нескольких запросов (обозначим общее число запросов через k), то для данного запросаiкоэффициенты полнотыRiи точностиPiможно записать в виде:

Из приведенных уравнений можно получить среднюю величину, которая отражает эффективность системы, ожидаемую для случая среднего пользователя. Для этого возьмем среднее арифметическое по kвыборочным запросам:

Поскольку значения коэффициентов полноты Riи точностиPi определяются однозначно для каждого из запросов пользователей, это позволяет вычислить средние значения для фиксированных интервалов полноты. Кривая, полученная в результате усреднения, называется кривая "полнота-точность" поисковой системы (рис. 12). Левый край этой кривой соответствует узким, специфичным формулировкам запросов, а правый - определяется широкими, общим запросами.

Рис.12. Кривая полнота-точность.

Кривые “полнота-точность” могут использоваться для оценки качества работы либо нескольких ИПС, либо одной, работающей в разных условиях. При этом кривые, полученные для двух систем, могут быть наложены на один график, что позволяет определить, какая из систем лучше и в какой степени . Очевидно, что кривая, расположенная ближе к правому верхнему углу графика (рис.12), где полнота и точность максимальны, указывает на лучшее качество работы.

В идеальной ИПС коэффициенты полноты и точности равны единице. В реальных поисковых системах коэффициент полноты поиска может достигать значений 0,7 – 0,9, а коэффициент точности находится в интервале 0,1 – 1,0 .

В дополнение к стандартным мерам полноты и точности, значения которых зависят от размера множества выданных документов, можно использовать показатели, не зависящие от выданного множества. В частности, для систем, в которых полученные документы ранжируются в порядке уменьшения сходства между документом и запросом, существуют меры оценки, основанные на рангах релевантных документов. Такие функции, называемые нормализованной полнотой и нормализованной точностью, имеют вид: