2012-06-21 105 views
1

我正在從事這個項目,我希望從他最近的推文中分類Twitter用戶的總體情緒。由於推文可以屬於各種各樣的域名,我應該怎麼做呢?Twitter數據的情緒分析?

我可以用樸素貝葉斯算法(如這裏:http://phpir.com/bayesian-opinion-mining),但由於微博可以屬於一個大的各種領域中,我不知道這是否會是非常準確的。

另一種選擇是使用可能爲人感興趣的詞典,如SentiWordNethere。這是一個更好的方法,我不知道。

如果我打算使用樸素貝葉斯或其他算法,還可以在哪裏獲得數據來訓練分類器?

只是在這裏添加,我主要是在PHP編碼。

回答

2

看起來你可以使用SentiWordNet作爲分類器數據,如果你是專注於逐字的方法。這是多麼簡單Bayesian spam filters工作;它專注於每個單詞。

這樣做的優點是,雖然許多在SentiWordNet的詞有多種含義,每一個不同的positive/objective/negative分數,你可以使用的其他字的分數在鳴叫實驗,以縮小對每個最合適的含義多義詞,這可以爲您提供每個單詞和整體推文更準確的分數。