2014-10-28 36 views
1

我在NoSQL數據庫中存儲了大量文本 - 比如大約100-200字 - 需要在所有這些塊中顯示趨勢關鍵字/標籤。如何從非結構化文本塊中獲取熱門標籤/關鍵字?

我知道像鍊金術這樣的文本分析API,它從單個文本塊中提取實體,但我想要所有塊中的頂級關鍵字/標籤。

我是否應該針對每個文本塊存儲關鍵字,然後對頂級關鍵字進行詳盡計數?在這種情況下,每個關鍵字可能會略有不同,並可能導致類似關鍵字的碎片化。

回答

0

過濾出實體並不總是需要爲您提供結果(認爲它符合基本目的)。如果你希望它更有效,你應該刪除停用詞,做詞幹,UpperCase到LowerCase對話,拼寫校正,然後使用HashMap來查找頻率。 使用這個頻率,你可以過濾出100-200個實體/標籤。

我希望這會有所幫助。