Lucene附近的單詞建議

我有一個300GB的大小索引約400萬文本文件。這是我試圖實現的：Lucene附近的單詞建議

步驟1：搜索單詞或短語。假設找到1000個文件。

步驟2：識別搜索結果中最常見的單詞和短語，即1000個文檔。「最常用的單詞和短語」應與步驟1中搜索的單詞或短語的距離爲X.X距離可以是從1個單詞距離到1000個單詞距離的任何數字。

第3步。使用找到的「最常見單詞和短語」再次搜索400萬份文檔中的文檔。

我在Luncene上看到關於自動建議和ngram搜索的問題。但仍然不知道如何做到最佳，尤其是我應該使用特殊分析儀，特殊查詢還是兩者兼而有之？

我已經使用了一種特殊的預分析器（索引每個n-gram作爲一個短語），效果很好（請參閱RELMA LOINC醫學術語搜索/映射程序）。

2014-03-21 22:17:19

回答