2014-02-05 73 views
0

我有一個存儲在Lucene中的文檔索引。我需要從索引中提取所有搭配詞的頻率。我知道有多種算法可以檢測給定文檔中的搭配,但我不知道任何可以與Lucene專門用於此任務的現有庫。有誰知道任何圖書館?從Lucene索引中提取搭配詞

我知道如何從lucene索引中提取二元組,但並非所有的二元組當然是搭配詞。

回答

0

如何使用Shingles這將產生所有的n-gram。然後,使用方面將這些ngram重新計數?或從管理部分進行任期分析。