可能重複:
How to get frequently occuring phrases with LuceneLucene的尋找最頻繁的單詞或單詞組
我需要找到在索引中大多數發生的歷史單詞或單詞組,這意味着大多數發生的歷史文本可能是這個詞本身或一個詞組。與推特熱門話題(沒有課程標籤實體)非常相似。 Lucene是否提供了某種方法來執行此操作,或者如何在大量數據中實現這一點。如果問題不清楚,我可以舉例更具體。我正在使用java和Lucene 3.5。
並且快速編輯「單詞組」可以包含最多3個單詞。我們在一個大文本中說我有300次「是」500次「天氣」100次,「好」300次,詞組「天氣很好」是90次。我需要找到「天氣不錯」的發生是否對我很重要。當然,我需要看每個索引字...
謝謝。