logo search
lk_poisk_ex

1.3 Релевантность

Наиболее часто используются следующие виды релевантности:

1. Когнитивная релевантность, или пертинентность – характеризует степень соответствия информации из документа и реальной информационной потребности пользователя. Это истинная и наиболее трудноопределимая релевантность. Все остальные виды релевантности являются ее приближениями.

2.Тематическая (предметная) релевантность– характеризует степень близости предмета (тематики) информационной потребности и найденного документа. Под тематикой здесь понимается область интересов пользователя, в пределах которой существует его информационная потребность.

3.Ситуационная релевантность– определяет полезность информационного ресурса для задачи, решаемой пользователем, с точки зрения временных затрат, способа взаимодействия пользователя с системой и т. п.

4.Системная (алгоритмическая) релевантность– характеризует степень близости между формализованной информационной потребностью (запросом) и найденным поисковой системой документом.

Поскольку информационно-поисковый язык является формальным языком, для сравнения запросов и документов можно применять формальные критерии. Поэтому алгоритмическую релевантность, в отличие от остальных видов релевантности, можно рассчитать без участия пользователя. Обычно она определяется самой поисковой системой в ходе работы поискового алгоритма.

Теоретически релевантность можно измерить некоторым числом в интервале от нуля (полностью непертинентный документ) до единицы (полностью пертинентный документ). На практике же релевантность в основном определяется при оценке просматриваемых документов – подходит ли данный документ пользователю или не подходит. Таким образом, релевантность обычно характеризуется бинарным значением.

Существуют также методы оценки релевантности по многозначной шкале. В этом случае коллектив экспертов просматривает доступные документы и присваивает каждому из них некоторое значение релевантности, которое определяется для каждого запроса. Такая методика используется главным образом при сравнении эффективности нескольких поисковых систем.

Один и тот же документ может быть релевантным согласно одному определению релевантности и нерелевантным согласно другому. Так, документ, релевантный алгоритмически, может оказаться непертинентным. Например, если в неспециализированной ИПС искать информацию о компьютерных манипуляторах типа "мышь" и использовать для этого запрос, состоящий из слова "мышь", то велика вероятность получения ряда непертинентных документов из области зоологии и географии, описывающих мышей-грызунов. При этом найденные непертинентные документы формально будут соответствовать запросу, так как в их тексте содержится термин запроса – "мышь".

Релевантность не является статичной величиной и может со временем меняться. Например, знания пользователя могут измениться после прочтения найденного документа, что в свою очередь может привести к составлению нового запроса, то есть к изменению формализованной информационной потребности. Это иллюстрирует интерактивную природу информационного поиска.

Различные определения релевантности весьма затрудняют оценку эффективности поиска информации. Качество поиска в информационно-поисковых системах обычно характеризуется двумя критериями – полнотой и точностью. Полнота поиска определяется общим количеством найденных документов, а точность – соотношением между найденными релевантными и нерелевантными документами. Из-за многозначности определения релевантности абсолютного критерия точности поиска не существует, и в результатах любого поиска всегда присутствуют как релевантные, так и нерелевантные документы.

Нерелевантные документы, которые сравниваются с релевантными, иногда называются шумом, по аналогии с теорией передачи информации К. Шеннона. Релевантные документы в таком случае можно называть сигналом, а эффективность поиска оценивать по соотношению "сигнал - шум".

Слишком большой шум затрудняет выделение пертинентных документов из множества найденных, а слишком малый не даёт уверенности в достаточной полноте поиска. Практика показывает, что пользователь, который ищет информацию, полагает число найденных документов удовлетворительным, когда количество непертинентных документов лежит в интервале 10–30% от общего числа найденных.

Важно отметить, что в результате анализа статистики запросов большого числа пользователей к известным поисковым системам выяснилось, что средняя длина запроса не превышает двух слов, и пользователи, как правило, используют самую простую форму запроса. Поэтому нельзя рассчитывать на то, что пользователь поисковой системы будет формулировать достаточно сложные эффективные запросы.

Современная поисковая система должна самостоятельно выявлять информационные потребности конкретного пользователя и учитывать их при поиске