2012-03-09 80 views
0

由於我已經閱讀了lucene 4.0的文檔,現在這個庫存儲了一些統計信息,以便計算不同的評分模型,其中之一是bm25。除了獲取文檔之外,還有辦法獲取文檔的長度嗎?lucene文檔長度4.0

+0

什麼是文件的長度?字節數/碼點/字段? – jpountz 2012-03-09 15:59:03

+0

它是一些術語,與用於計算BM25的長度相同,我知道這個統計量存在於Lucene 4中,否則bm25計算將不可能,但我不知道如何獲取它? – 2012-03-09 16:24:13

回答

2

您可以將FieldInvertState中所需的任何內容存儲到「標準」中,而且它也不一定是8位浮點數。

默認值是長度的有損存儲,如果您想要實際的確切長度,也許您選擇使用每個文檔或其他東西的短(16位)。

見Similarity.computeNorm

+0

你可以給我一個關於如何檢索文檔長度的例子嗎?我不太明白你的回覆。更具體一些對我來說肯定會有幫助。 「See Similarity.computeNorm」,看哪裏?我正在使用Lucene版本4.0 – 2012-03-12 13:51:31

+0

我應該在索引時間計算這個標準並將它作爲一個字段存儲在索引中,或者我可以檢索長度而不必存儲任何東西? – 2012-03-12 17:04:00