2011-08-18 18 views
0

我需要一些幫助理解bm25相關性排名(即時通訊使用獅身人面像)。當有一個小的索引(非常小的可以說),這是否會對文檔中出現的常見詞的相關性產生負面影響?假設你總共有4篇文章(非常小,是的)......標題爲:「挪威」,「加拿大股票再次反彈」,「加拿大」,「越南」。指定的字段是標題和正文。可以說,查詢是:「加拿大」。基本上,「加拿大」出現在很多(降序)...我。 「加拿大」二。 「加拿大股市再度反彈」三。 「挪威」(它在這篇文章中做過)。 bm25不考慮詞頻嗎?我閱讀了那些在索引中出現頻率很高的文字,並且文件實際上降低了排名。順便說一下,當我在獅身人面像中使用proximity_bm25進行搜索.....「加拿大股票再次反彈」的排名略高於「加拿大」....好奇:p幫助bm25解釋。在小索引中的罕見詞彙/小索引中的常見詞彙

回答

0

有關獅身人面像實施方面的一些具體信息的BM25的their blog。請注意,該解釋開始於「BM25 ...僅取決於匹配關鍵字的頻率。」該度量本身​​主要基於TF(Term Frequency)和IDF(Inverse Document Frequency)。即跨越整個語料庫的詞語的頻率和包含該詞語的(反)數量的文檔。公式在參考鏈接中給出。