2010-10-13 156 views
37

我一直在閱讀大量的文章,解釋在情緒分析系統真正起作用之前,被分類爲「積極」或「消極」的最初一組文本的需要。無監督情緒分析

我的問題是:有沒有人企圖對「正面」形容詞與「負面」形容詞進行基本檢查,並考慮到任何簡單的否定,以避免將「不快樂」歸爲正面?如果是這樣,是否有任何文章討論爲什麼這種策略不現實?

回答

55

一個classic paper by Peter Turney(2002)只用字說明了如何做監督的情感分析(正極/負極分類)的方法優秀作爲種子集。 Turney使用其他詞的mutual information與這兩個形容詞來達到74%的準確度。

+0

這個人得到答案標籤。這是一篇非常有趣的文章。 – Trindaz 2010-10-15 12:38:45

15

我還沒有嘗試做過未經訓練的情感分析,例如你所描述的,但是我的頭頂上我會說你是在簡化這個問題。簡單地分析形容詞不足以很好地理解文本的情感;例如,考慮「愚蠢」這個詞。獨自一人,你會把它歸類爲負面的,但如果產品評論有'... [x]產品讓他們的競爭對手看起來很愚蠢,因爲先不考慮這個功能......'那麼在那裏的情感肯定會是積極的。在這樣的情況下,詞語出現的上下文肯定很重要。這就是爲什麼單獨使用未經訓練的書包方式(更不用說更加有限的形容詞)不足以充分解決這個問題。

預先分類的數據('訓練數據')有助於將問題從試圖確定文本是否具有正面或負面情緒從嘗試確定文本是否與正面文本更相似或消極的文本,並以這種方式進行分類。另一大問題是情感分析等文本分析常常受到文本特徵與領域特徵差異的影響。這就是爲什麼擁有一套好的數據來訓練(也就是說,你正在工作的領域內的準確數據,並且希望能夠代表你將要分類的文本)與建立一個好東西同樣重要系統用來分類。

不完全是一篇文章,但希望有所幫助。

+0

感謝您的回覆華夫餅!我非常感謝所有關於此主題的意見。 – Trindaz 2010-10-15 11:57:27

2

我試着使用影響詞典來發現關鍵詞來預測句子級別的情感標籤。考慮到詞彙的一般性(非域依賴),結果只有大約61%。該論文可在我的主頁上找到。

在一個稍微改進的版本中,考慮了否定副詞。整個系統,命名爲EmoLib,可用於演示:

http://dtminredis.housing.salle.url.edu:8080/EmoLib/

問候,

+0

感謝您的這款酒吧。它爲我進行的測試運行得非常好。 – Trindaz 2010-10-15 12:02:09

2

大衛,

我不知道如果這有助於但你可能想看看雅各珀的blog post使用NLTK進行情感分析。

+2

他正在做監督分類。 – theharshest 2014-11-02 22:56:01

0

在情感分析中沒有神奇的「捷徑」,就像尋求發現大量文本底層「關係」的任何其他類型的文本分析一樣。試圖通過簡單的「形容詞」檢查或類似的方法來縮短證明的文本分析方法會導致歧義,錯誤的分類等,在一天結束的時候,會讓你對情緒的準確度讀數不準確。來源(例如Twitter)越簡潔,問題就越困難。

3

蘭斯曼提到的特納(2002)的論文是一個很好的基礎論文。在較新的研究中,Li and He [2009]介紹了一種使用Latent Dirichlet Allocation(LDA)的方法來訓練模型,該模型可以以完全無監督的方式同時分類文章的整體情感和主題。他們達到的準確率是84.6%。

+0

這看起來很有希望,我會讀它並回複評論 – 2013-02-26 10:51:53

+1

你真的最終嘗試它嗎?我正在研究一個類似的問題,試圖對enron電子郵件存檔進行情感分析。 – user1943079 2015-05-09 08:37:21

+0

@TrungHuynh我在發佈答案後將近4年發佈這篇文章,但現在已經更改了該論文的鏈接。你能告訴我期刊論文的名字,以便我可以在網上搜索嗎? – Krishh 2016-04-08 18:45:12

2

我在評論中嘗試了多種輿情挖掘輿情分析方法。 最適合我的是劉書中所描述的方法:http://www.cs.uic.edu/~liub/WebMiningBook.html在這本書中,劉和其他人比較了許多策略,並討論了關於情感分析和意見挖掘的不同論文。

雖然我的主要目標是提取意見中的功能,但我實施了一種情感分類器來檢測此功能的正面和負面分類。

我使用NLTK進行預處理(字標記,POS標記)和三卦創建。然後,我還使用了這個takeit中的貝葉斯分類器來與劉準確定位的其他策略進行比較。

其中一種方法依賴標記pos/neg每個trigrram來表達這些信息,並對這些數據使用一些分類器。 其他方法我嘗試過,並且工作得更好(在我的數據集中準確率達到85%左右),計算句子中每個單詞的PMI(準時互信息)分數和優秀/差作爲pos/neg類。

+0

您好Luchux,我正在一個類似的域名,可以請你分享你的數據集,這將是非常有益的。 – turing 2015-04-08 10:29:23