2014-01-28 98 views
3

目前我正在學習信息檢索是我比較堅持了召回率和準確瞭解召回值和精度

搜索者使用搜索引擎尋找信息的一個例子。第一個結果屏幕上有10個文件,第二個屏幕上有10個文件。

假設已知在搜索引擎索引中有10個相關文檔。

Soo ...共有20個搜索,其中10個相關。

任何人都可以幫助我理解這一點嗎?

謝謝

+0

似乎從搜索引擎一半的點擊率是不相關? 「已知有10個相關文檔」和「每頁10個結果」有點不幸。這是不一樣的數字(儘管都是'10')。你想知道這件事? – Floris

回答

7

召回並精確測量結果的質量。爲了理解它們,我們首先定義結果的類型。在返回列表中的文檔可以是

  • 正確分類

    • 真陽性(TP):一個文件,該文件是相關的(正)確實返回(真)
    • 一真陰性(TN):一份文件,是不相關的(負),這是確實沒有返回(真)
  • 誤判

    • 假陽性(FP):一份文件,是不相關的,但被退回
    • 假陰性(FN):一個文件,該文件是相關的,但沒有返回

的精度是:

| TP | /(| VTP | + | FP |)

即檢索到的文檔,其確實相關

召回隨後的分數:

| TP | /(| VTP | + | FN |)

即它們是在你的結果的相關文檔的分數設定

因此,在你實施例10的20個結果是相關的。這給你一個0.5的精度。如果沒有超過這10個相關文檔,則您的召回率爲1.

(當衡量信息檢索系統的性能時,只考慮精度和召回率是有意義的,您可以輕鬆獲得精度100%返回沒有結果(即沒有虛假返回的實例=>沒有FP)或通過返回每個實例(即沒有錯過相關文檔=>沒有FN)回收100%。)

相關問題