2013-02-15 104 views
0

我正在嘗試對大量推文進行一些單詞分析。Twitter搜索詞分析

我拉基於搜索查詢的推文,然後我想以某種方式找到經常出現,並與原始查詢相關的關鍵字。

我不太清楚如何以合理有效的方式去解決這個問題。我現在只是刪除停用詞,然後找到最常發生的詞,但這比我想要的更基本。

有沒有人對此類事情有任何建議(或者甚至鏈接到關於該主題的任何閱讀)?

任何幫助非常感謝。

(我的實現是在Python,如果是相關的)

+0

閱讀「編程集體智慧」 - 我認爲貝葉斯文檔分類器就是你的想法。 – duffymo 2013-02-15 15:27:44

回答

3

有關鳴叫的內容語義推理,你一定要試試the NLTK (Natural Language Toolkit Package)。它能夠對文本進行非常複雜的分析。

+0

大約一年前,我不得不做很類似的事情。 NLTK非常有用。 – Hoopdady 2013-02-15 15:29:51

+0

啊,好的。我之前使用過NLTK的一些基本的東西。儘管我從未考慮過它的更深入的特性。我會這樣做,謝謝! – djcmm476 2013-02-15 15:30:28