由於我已經閱讀了lucene 4.0的文檔,現在這個庫存儲了一些統計信息,以便計算不同的評分模型,其中之一是bm25。除了獲取文檔之外,還有辦法獲取文檔的長度嗎?lucene文檔長度4.0
0
A
回答
2
您可以將FieldInvertState中所需的任何內容存儲到「標準」中,而且它也不一定是8位浮點數。
默認值是長度的有損存儲,如果您想要實際的確切長度,也許您選擇使用每個文檔或其他東西的短(16位)。
見Similarity.computeNorm
+0
你可以給我一個關於如何檢索文檔長度的例子嗎?我不太明白你的回覆。更具體一些對我來說肯定會有幫助。 「See Similarity.computeNorm」,看哪裏?我正在使用Lucene版本4.0 – 2012-03-12 13:51:31
+0
我應該在索引時間計算這個標準並將它作爲一個字段存儲在索引中,或者我可以檢索長度而不必存儲任何東西? – 2012-03-12 17:04:00
相關問題
- 1. 如何在Lucene中獲得平均字段長度和文檔長度?
- 2. 計算平均文檔長度使用Lucene
- 3. 在Lucene 4中查找文檔/字段長度
- 4. lucene 4.0統計
- 5. 如何從Lucene 4.0索引中提取單個文檔?
- 6. .net framework 4.0文檔
- 7. Elasticsearch和Lucene文檔限制
- 8. Lucene索引html文檔
- 9. Lucene updateDocument不刪除文檔
- 10. 從XML創建Lucene文檔
- 11. Lucene的文檔推進
- 12. Lucene更新文檔索引
- 13. 搜索兩個Lucene文檔
- 14. 運行長過程:使用Lucene索引5GB文檔
- 15. Lucene 4.0在文本搜索中
- 16. 文檔對象的大小或長度
- 17. iTextSharp打印可變長度文檔
- 18. 文檔長度不等於緩衝區
- 19. Elasticsearch,獲取平均文檔長度
- 20. CSS translateY正在擴展文檔長度
- 21. 內聯Python文檔的行長度
- 22. Lucene的 - 長串
- 23. Lucene 4.0示例代碼
- 24. 計算Lucene文檔和質心之間的相似度
- 25. 如何使用Lucene提升新鮮度文檔
- 26. Lucene中的查詢和文檔之間的餘弦相似度
- 27. 使用Lucene計算文檔相似度的更好方法
- 28. 歸檔lucene索引
- 29. 增長文檔vs插入新文檔
- 30. Lucene - Lucene中字段的唯一名稱文檔
什麼是文件的長度?字節數/碼點/字段? – jpountz 2012-03-09 15:59:03
它是一些術語,與用於計算BM25的長度相同,我知道這個統計量存在於Lucene 4中,否則bm25計算將不可能,但我不知道如何獲取它? – 2012-03-09 16:24:13