2012-12-04 96 views
4

我正在做一個關於twitter情緒分析的項目,但是我有一些想法。Twitter的情緒分析技術

由於推文非常短(少於140個字符),文本分析技術最適用的是什麼。例如。是否會干擾工作以及在-let的常規文章中?

n-grams呢?推文的簡短程度對他們來說是最好的還是最差的?

k-nearest會比詞性標記更準確嗎?

隨着時間的推移,我的自定義twitter數據集會變得不相關/損壞嗎?由於twitter和它的信息變化如此之快,這也是我主要關心的問題。

非常感謝您的時間。

PS:你有什麼好的twitter情緒數據集?如果定期更新會很好。

+2

[sentiment140.com有技術報告](http://help.sentiment140.com/)描述了他們的方法。它似乎源於同一個作業。下面是一個例子:[使用'stackoverflow'的推文的情感分析](http://www.sentiment140.com/search?hl = zh_CN&query = stackoverflow) – jfs

回答

5

我做了一些課堂作業分析名人的推文和比較他們的相似之處。

你認爲最重要的是推文的長度。在140個字符中,很多單詞被縮短,或者不尋常的「txt-speech」。所以即使是一個知名的詞幹,如Porter也會給出一些奇怪的結果。最好保留幾乎所有東西,並且只在字數,矢量等之後保持正常。

對於從字推斷,n-gram和以下鏈接是質量推斷的重要因素。我只能忍受4克的空間和時間要求,但即使創建簡單的2克也有很大的提升。

如果您注意到我之前說過的「幾乎所有」。在我只追蹤流行的名人鳴叫的情況下,我遇到了很多問題,他們的鳴叫是鏈接或呼籲他們的活動或贊助商等,所以很大一部分是刪除大量的垃圾郵件副本。

對於提取準確的情緒或您尋找的任何措施的方法,我會首先嚐試基於樸素貝葉斯的方法。對於基線而言,它很簡單並且相對準確。 K-means的表現會相當不錯,但請記住,它沒有考慮到方差和共同差異,但卻是另一個嘗試的基準。

希望能提供一些見解。

2

我最近根據twitter對電影做了一個分析,以找出有關電影的人們推特,他們喜歡與否的天氣。這個鏈接http://www.laurentluce.com/posts/twitter-sentiment-analysis-using-python-and-nltk/幫了我很多。此外,我必須收集一系列捷徑,一般用於包含情緒的推文。

另外,一個人的推文只能保存到3000(或3.5k不確定?),而你自己的時間軸流也有類似的限制。因此,您可以使用http://topsy.com獲取您所選擇的主題或主題的推文,並從那裏獲取特定主題的舊推文進行分析。您可能還需要定期保存關於您未來參考需求的推文,因爲推特不會爲您節省。

:)

+0

您可以使用ScraperWiki每天保存Twitter提要,如[this](https://scraperwiki.com/scrapers/basic_twitter_scraper/)簡單示例。 –