2010-03-21 83 views
4

我已經建立了一個內容聚合和想補充表示當前趨勢的標籤雲。巧妙的方式? - Python的

不幸的是,這是相當複雜的,因爲我必須尋找關鍵字代表每篇文章的上下文。

舉例言之,如驚人不錯沒有關係背景。


幫助,將不勝感激! :)

回答

9

使用NLTK,特別是其停用詞語料庫

除了常規的內容的話,有 是另一個類的話叫停 話執行重要 語法功能,但 不可能由 自己感興趣。這些措施包括 介詞,complementizers和 限定詞。 NLTK自帶 捆綁停用詞語料庫,2400個 停止詞的跨越11種不同的 語言(包括英語)的列表。

+0

@Alex:感謝真棒答案!但是,這可以處理形容詞如**好** **偉大**等......? – RadiantHex 2010-03-21 03:56:13

+2

@Radiant,形容詞不是停用詞,因爲他們做的傳達意義 - 例如,「長城」在中國是一個非常具體和長牆,而「華爾街」是Pink Floyd的專輯 - 等,如果你想跳過形容詞(一個可疑的決定),使用NLTK做「部件 - 詞性標註」,每http://streamhacker.com/2008/11/03/part-of-speech-tagging-with-nltk-第1部分/(當然也閱讀第2部分和第3部分)。 – 2010-03-21 04:05:27

2

NLTK可以幫助您分析,以挑選出相關條款的內容。

相關問題