logo search
lk_poisk_ex

2.4.5 Вероятностная модель

Недостатком частотных методоввзвешивания терминов является тот факт, что частотные веса рассчитываются формально, без учета реальных информационных потребностей.

Для того чтобы установить соответствие между истинной информационной потребностью и терминами, составляющими поисковый образ документа, разработана вероятностная модель оценки весов терминов .

Вероятностная модель основана на точной оценке вероятности того, что данный документ является релевантным (точнее, пертинентным) данному запросу .

Обозначим вероятность такого события как

где w1 – событие, которое состоит в том, что документ d является релевантным по отношению к запросу q . Аналогично, предположим, что – вероятность того, что документ d окажется нерелевантным.

Для определения вероятности воспользуемся теоремой Байеса:

Здесь P(w1)– вероятность того, что случайно выбранный документ является релевантным,P(d)– вероятность того, что из всего множества документов для рассмотрения выбран документP(d | w1)– вероятность того, что документdвыбран из множества релевантных документов.