2012-06-11 67 views
5

我嘗試過樸素貝葉斯分類器,它的工作非常糟糕。支持向量機的工作更好一些,但仍然可怕。大多數我讀過關於支持向量機和樸素貝葉斯的一些變種(n-gram,POS等)的論文,但他們都給出了接近50%的結果(文章的作者談論80%和高,但我不能得到相同的準確度在真實數據上)。良好的情感分析算法

除了lexixal分析,還有其他強大的方法嗎?支持向量機和貝葉斯假設這些詞是獨立的。這些方法被稱爲「袋子文字」。如果我們假設這些詞是相關聯的呢?

例如:使用apriory算法來檢測,如果句子包含「壞和可怕」,那麼70%的概率,句子是否定的。我們也可以使用單詞之間的距離等。

這是好主意還是我發明自行車?

回答

2

你在這裏混淆了一些概念。樸素貝葉斯和支持向量機都不是綁在一起的單詞方法。 SVM和BOW方法都不具有術語之間的獨立性假設。

這裏有一些事情你可以嘗試:

  • 包括在你的詞彙袋標點符號; ESP。 !和?可以有助於情感分析,而許多適合文檔分類的特徵提取器將其丟棄
  • 與停用詞相同:像「I」和「my」這樣的詞可能表示主觀文本
  • 構建兩階段分類器;首先確定是否表達任何意見,然後判斷是否爲正數或負數
  • 嘗試使用二次核SVM而不是線性核SVM來捕獲要素之間的交互。
+0

你如何看待apriory算法和單詞之間的混淆? – Neir0

+0

@ Neir0:我不會立即看到你想如何應用它。我也從來沒有見過嘗試對它進行情緒分析。我知道有些人用它來構造二次內核的近似值(大致稱爲「單詞關聯」),但是我會首先嚐試使用vanilla kernel SVM。 –

+0

直接的方法是輸入帶有徽章neg或pos的標記。例如:「pos我愛我的媽媽」。在輸出結果中,我得到了「如果我們有愛和媽媽的話,那麼70%,我們有pos徽章」。當然,我們可以修改此方法以獲得更好的結果。 – Neir0

4

像支持向量機,樸素貝葉斯和最大熵算法是監督機器學習算法,你的程序的輸出取決於你提供的訓練集。 對於大規模情緒分析,我更喜歡使用無監督學習方法,在這種方法中,人們可以通過將文檔聚類到面向相同的部分來確定形容詞的情感,並標記正面或負面的聚類。更多信息可以從這篇論文中找到。 http://icwsm.org/papers/3--Godbole-Srinivasaiah-Skiena.pdf

希望這有助於你在工作中:)

0

情感分析正在進行的研究領域。現在有很多研究正在進行中。有關最新,最成功的方法的概述,我通常建議您查看SemEval的共享任務。通常,他們每年都會在Twitter的情緒分析上進行比賽。你可以找到描述任務的論文,並在2016年的結果(雖然可能有點技術性):http://alt.qcri.org/semeval2016/task4/data/uploads/semeval2016_task4_report.pdf

從那裏開始,你可以看看描述各個系統的論文(在那裏引用) 。