2010-12-21 20 views
0

由於公式精度是:文本檢索系統中的精度值是否可以達到100%?

retrieved_and_relevant /(retrieved_and_relevant + retrieved_and_irrelevant)

如果在文本檢索系統用於精密的值將永遠不會從100%不同我想知道。我這麼認爲是因爲,我們所有的程序員都竭盡全力,不忘記擠出所有文檔的每一個文本。所以,當查詢文本被觸發到文本檢索系統時,它將輸出包含查詢文本的所有文檔。這意味着檢索的所有文件都是相關文件;基本上使得分數達到100%。

這是真的還是我錯過了一些觀點?

回答

1

你對精度背後的概念有些困惑。

一個簡單的例子是搜索條款iraq war。取決於搜索引擎的設計方式,結果可能會或可能不是用戶正在尋找的內容。它可能會返回

  • 戰爭,伊拉克,該國參與
  • 一個虛構的故事在目前的伊拉克戰爭是軍人,
  • 談到有關各種戰爭和他們的財務影響的新聞文章。

每個文檔都可能完全不同,並且包含確切的搜索詞,但可能與用戶所查找的內容無關。

搜索引擎肯定會喜歡有100%的精度,但這是非常罕見的。

精確度只能由執行搜索查詢的用戶自己決定,因爲他們是唯一一個毫不懷疑地知道結果是否相關的人。這絕對是要爭取的東西,但不相信它總是等於100%。

+0

非常感謝Josh W.對你的很好的解釋。所以「相關性」是對結果的語義解釋。感謝您澄清這個想法。 – bikashg 2010-12-21 19:14:06

相關問題