0
我有一個300GB的大小索引約400萬文本文件。這是我試圖實現的:Lucene附近的單詞建議
步驟1:搜索單詞或短語。假設找到1000個文件。
步驟2:識別搜索結果中最常見的單詞和短語,即1000個文檔。 「最常用的單詞和短語」應與步驟1中搜索的單詞或短語的距離爲X.X距離可以是從1個單詞距離到1000個單詞距離的任何數字。
第3步。使用找到的「最常見單詞和短語」再次搜索400萬份文檔中的文檔。
我在Luncene上看到關於自動建議和ngram搜索的問題。但仍然不知道如何做到最佳,尤其是我應該使用特殊分析儀,特殊查詢還是兩者兼而有之?