2012-01-25 38 views
1

我正在使用apache mahout在客戶支持域中執行情感分析。由於我無法獲得適當的訓練數據集,因此我創建了自己的訓練數據集。現在我有100封支持正面信息的郵件和100封負面郵件。貝葉斯分類器的訓練數據大小

但問題是,我無法達到準確性。它停留在55%左右,這是可悲的。大約70%左右的精確度將令人滿意。另外請注意,我使用的是apache mahout的免費樸素貝葉斯分類器。

剛纔提到的問題是,減小數據集大小是否會降低準確度?如果不是,我應該在哪裏調整?

+1

你的訓練數據量很小。這是主要問題。國際海事組織干擾通常會降低天真貝葉的準確性。 –

回答

4

只對那些尋找到未來這一問題的利益,我將分享其中我調整從50我的分類的準確性,約78%的方式

  • 執行而產生的培訓和輸入數據
  • 執行訓練和輸入數據停止字去除
  • 轉換訓練和輸入數據,以小寫字母(或大寫)
  • 在訓練數據的每個類別具有接近相等量的樣品
  • 根據您的域微調ngram級別。

這應該會顯着提高您的準確性。