我需要一些幫助理解bm25相關性排名(即時通訊使用獅身人面像)。當有一個小的索引(非常小的可以說),這是否會對文檔中出現的常見詞的相關性產生負面影響?假設你總共有4篇文章(非常小,是的)......標題爲:「挪威」,「加拿大股票再次反彈」,「加拿大」,「越南」。指定的字段是標題和正文。可以說,查詢是:「加拿大」。基本上,「加拿大」出現在很多(降序)...我。 「加拿大」二。 「加拿大股市再度反彈」三。 「挪威」(它在這篇文章中做過)。 bm25不考慮詞頻嗎?我閱讀了那些在索引中出現頻率很高的文字,並且文件實際上降低了排名。順便說一下,當我在獅身人面像中使用proximity_bm25進行搜索.....「加拿大股票再次反彈」的排名略高於「加拿大」....好奇:p幫助bm25解釋。在小索引中的罕見詞彙/小索引中的常見詞彙
0
A
回答
0
有關獅身人面像實施方面的一些具體信息的BM25的their blog。請注意,該解釋開始於「BM25 ...僅取決於匹配關鍵字的頻率。」該度量本身主要基於TF(Term Frequency)和IDF(Inverse Document Frequency)。即跨越整個語料庫的詞語的頻率和包含該詞語的(反)數量的文檔。公式在參考鏈接中給出。
相關問題
- 1. 計算一段文字中最常見的名詞詞彙
- 2. 哪些詞在索引字段中最常見?
- 3. 詞彙大小的文件
- 4. MongoDB文本索引搜索緩慢的大表中的常見單詞
- 5. 通過小型詞彙進行詞彙封閉?
- 6. 將英文單詞分爲罕見和常見
- 7. 建立基於詞彙頻率表/分佈的搜索引擎?
- 8. 從非常大的文件中刪除罕見單詞
- 9. KeyError:單詞'詞彙'不在詞彙表中'word2vec
- 10. SQL查詢來查找最小字段的最常見索引
- 11. scikit-learn vectorizer詞彙表與多個詞映射到相同的索引
- 12. 在彙編x86中彙總數組。在輸入的索引
- 13. 索引詞
- 14. 如何分解冗長的詞彙,但忽略短詞彙?
- 15. 使用Python刪除小詞彙
- 16. Solr關鍵字搜索 - 哪一個更快 - 常用詞(在索引中)還是不常見?
- 17. 使python中的變音詞詞彙url
- 18. Gensim:KeyError:「單詞不在詞彙表中」
- 19. 在索引中搜索作爲搜索詞的前綴的詞(反之亦然)(!)
- 20. JavaScript中的詞彙範圍
- 21. R中的詞彙範圍
- 22. 構建可搜索詞彙表網頁
- 23. 如何通過lucene索引獲取熱門詞彙並進行搜索?
- 24. Wordcount文件的常見詞
- 25. 幫助與索引
- 26. 索引幫助Java
- 27. MySQL中的索引大小
- 28. 使詞彙的鍵
- 29. 庫SKOS詞彙的
- 30. Drupal 7的詞彙