0
據我所知,Lucene貢獻目錄中的演示IndexFiles示例將創建從文檔術語到相應文檔路徑名的倒排索引。將術語頻率添加到lucene索引
我想知道是否有方法將每個文檔中的術語頻率添加到索引中。
換句話說(如果我沒有理解這個權利),原來的映射: 名詞 - >(文件路徑名) 術語列表 - >(文件路徑名,詞頻該文件中)
名單有沒有辦法做到這一點?目前,我正在通過在java中打開每個文檔路徑名來計算術語頻率,然後計算術語。由於可能有數百個文檔需要打開和處理,因此存在一些巨大的開銷。