2010-11-16 61 views
25

我的要求是獲取新聞文章並確定它們對於某個主題是正面的還是負面的。我正在採取下面概述的方法,但我一直在閱讀NLP可能在這裏使用。我所讀到的所有內容都指出NLP從事實中發現了意見,我認爲這對我來說並不重要。我想知道兩件事:情緒分析的最佳算法方法

1)爲什麼我的算法不工作和/或我該如何改進它? (我知道諷刺可能是一個陷阱,但我再也看不到發生在我們將得到的新聞類型中的太多)

2)NLP如何幫助,我爲什麼要使用它?

我的算法方法(我的正面,負面和否定詞的詞典):

1)計數第

2)的正面和負面的詞數。如果一個否定詞發現2或3個字的正面或負面的詞,(即:不是最好的)否定得分。

3)將得分乘以手動賦予每個單詞的權重。 (1.0開始)

4)加起來的積極和消極得到情緒分數。

+0

情感分析定義爲NLP的一種形式;你正在處理自然語言文本。要確切知道你的方法將如何工作,唯一的方法就是嘗試一下。方便的是,這也會告訴你它是否適用於你的目的,這實際上是重要的部分。 – 2010-11-16 22:48:29

+1

看到這個問題及其答案在實踐中運行良好的簡單算法:http://stackoverflow.com/questions/3920759/untrained-sentiment-analysis – 2010-11-17 11:33:34

+3

我的算法是最好的算法。因爲我是一個在情感分析中做研究的研究生,而且我有很大的自我*:)* – 2010-12-03 20:24:09

回答

32

我不認爲有什麼特別有你的算法,這是去一個非常簡單實用的方法,但也有很多情況下它會被犯錯誤。

  1. 曖昧情緒的話 - 「本產品適用可怕」與「該產品是非常好的」

  2. 錯過否定 - 「我從來不會在數百萬年說,這個產品值得購買」

  3. 引用/間接文本 - ‘我爸說,這款產品是可怕的,但我不同意’

  4. 比較 - 「這個產品大約是在頭一個洞一樣有用」

  5. 任何細微 - 「這個產品是醜陋的,緩慢和溫和,但它是市場上唯一的事情,做這項工作「

我正在使用產品評論的例子,而不是新聞故事,但你明白了。事實上,新聞報道可能會更難,因爲他們會經常試圖表現出爭論的雙方,並傾向於用某種風格來表達觀點。例如,最後一個例子在觀點中很常見。

至於NLP幫助您與任何此,word sense disambiguation(甚至只是part-of-speech tagging)可以用(1),syntactic parsing可能與(2),某種chunking可能會幫助長程依賴性幫幫( 3)。這是所有研究水平的工作,但沒有什麼我知道你可以直接使用。問題(4)和(5)要困難得多,我放棄了我的手並放棄了這一點。

我會堅持你的方法,並仔細看看輸出,看看它是否做你想做的。當然,然後提出了什麼問題,你想要你瞭解「情緒」的定義是在第一個地方...

+3

我的背後估計值(根據我正在研究註釋的文集中的20個文檔)大約3%的正面/負面意見是比較性的,所以#4可能不是一個大問題。長距離依賴性是一個大問題,所以句法分析是一個好主意,儘管連接產品特徵和意見的不同模式的數量是巨大的。 – 2010-11-22 04:04:08

+0

偉大的名字和美好的回答 – 2012-02-26 19:13:20

-1

爲什麼不嘗試類似SpamAsassin垃圾郵件過濾器的工作原理?內涵挖掘和意見挖掘之間確實沒有太大區別。

+2

-1。實踐中有很多不同之處。意見挖掘比垃圾郵件檢測困難得多。 – 2010-11-17 11:30:28

5

我最喜歡的例子是「剛讀過這本書」。它不包含明確的情感詞,並且高度依賴於上下文。如果它在電影評論中出現,那就意味着電影很糟糕 - 它是一種浪費時間而不是書本的好作品。但是,如果它在書評中,它會帶來積極的情緒。

還有什麼 - 「這是市面上最小的[手機]」。早在'90,這是一個很好的讚譽。今天它可能表明它太小了。

我認爲這是爲了獲得情感分析的複雜性而開始的地方:http://www.cs.cornell.edu/home/llee/opinion-mining-sentiment-analysis-survey.html(由Cornell的Lillian Lee撰寫)。

+0

情緒分析不是一個神奇的燈。這並不意味着提供基於單個孤立實例的洞察力。一個人甚至不能根據你給出的句子的單個無關聯實例提供有用的輸出。這就是爲什麼它必須在一個感興趣的場景中進行彙總,分析幾十/幾百/幾千個話語,以獲得關於話題(隨着時間的推移)的情緒(或情緒流)的想法。 – 2013-01-10 10:24:37

+0

克里斯 - 是和不是。你對某些實際應用(取決於感興趣領域中的可測量和可量化的錯誤)是正確的,但我認爲NLP/CL研究人員也對特定實例(句子無語境)的語義含義感興趣。大多數情況下,人類都非常擅長。仍然比現有算法更好。 – ScienceFriction 2016-04-14 20:14:23

2

機器學習技術可能會更好。

Whitelaw, Garg, and Argamon有一種技術可以達到92%的準確度,使用類似於你的技術來處理否定,並支持向量機進行文本分類。

+0

我的原始鏈接被打破了,但我相信我找到了你想指出的論文,所以我將它編輯到了你的文章中。 – syb0rg 2016-03-08 18:42:16

2

您可能會發現OpinionFinder系統和描述它的文章很有用。 它可在http://www.cs.pitt.edu/mpqa/與其他資源進行意見分析。

它超越了文檔層面的極性分類,但試圖在句子層面找到個人意見。

+0

很好的第一個答案。 – thomasfedb 2011-05-26 10:13:25

2

我認爲最好的答案,所有的你提到的教授劉兵標題「情感分析和觀點挖掘」的下讀的書的問題。這本書在情感分析領域是最好的。這太神奇了。只要看看它,你就可以找到所有'爲什麼'和'如何'問題的答案!