2014-03-07 96 views
0

我有一個300GB的大小索引約400萬文本文件。這是我試圖實現的:Lucene附近的單詞建議

步驟1:搜索單詞或短語。假設找到1000個文件。

步驟2:識別搜索結果中最常見的單詞和短語,即1000個文檔。 「最常用的單詞和短語」應與步驟1中搜索的單詞或短語的距離爲X.X距離可以是從1個單詞距離到1000個單詞距離的任何數字。

第3步。使用找到的「最常見單詞和短語」再次搜索400萬份文檔中的文檔。

我在Luncene上看到關於自動建議和ngram搜索的問題。但仍然不知道如何做到最佳,尤其是我應該使用特殊分析儀,特殊查詢還是兩者兼而有之?

回答

0

我已經使用了一種特殊的預分析器(索引每個n-gram作爲一個短語),效果很好(請參閱RELMA LOINC醫學術語搜索/映射程序)。