2011-11-10 69 views
0

據我所知,Lucene貢獻目錄中的演示IndexFiles示例將創建從文檔術語到相應文檔路徑名的倒排索引。將術語頻率添加到lucene索引

我想知道是否有方法將每個文檔中的術語頻率添加到索引中。

換句話說(如果我沒有理解這個權利),原來的映射: 名詞 - >(文件路徑名) 術語列表 - >(文件路徑名,詞頻該文件中)

名單

有沒有辦法做到這一點?目前,我正在通過在java中打開每個文檔路徑名來計算術語頻率,然後計算術語。由於可能有數百個文檔需要打開和處理,因此存在一些巨大的開銷。

回答

0

Lucene通常存儲術語頻率,也可以存儲術語偏移和位置。頻率信息存儲在擴展名爲「frq」的文件中,因此如果您的索引文件夾中包含該文件,則會存儲術語頻率。

你沒有說你爲什麼在意,或者你想要怎麼處理這些頻率。通常Lucene會使用它們爲您的查詢計算相關性分數。如果你想要原始頻率,這個問題將討論如何檢索它們:Get term frequencies in Lucene