我對數據挖掘沒有太多的瞭解,但我需要關於聚類的一些想法。讓我先描述一下我的問題。python數據挖掘
我有大約100張包含用戶評論的數據表。我試圖找到描述質量的單詞。人們可以說這是驚人的質量,另一個人現在可以說質量很高,因此我必須將那些描述這些類似句子的文檔聚類,並獲得這些句子的頻率。這裏適用什麼概念?
猜測我必須指定一些停用詞和同義詞。我對這個概念不太熟悉。
有人能給我一些詳細的鏈接或解釋嗎?以及使用什麼工具?我基本上是一個Python程序員,所以任何Python模塊將不勝感激。
謝謝
我認爲你有一個感傷分析(意見挖掘)的任務在手。你應該看看關於情感分析的文章。 [bing liu的感傷分析頁面](http://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html)另外看看nltk,它會對你的任務非常有用。 – viper 2012-11-28 05:53:58