2016-04-29 38 views
-1

我是weka中的新成員。由weka分類數據集(stringToWord)過濾器

我有一個關於特定公司的數據集(twitter數據).. 我使用的過濾器:字符串到字..我更改選項wordstokeep = 100,以提高準確性。 然後我申請分類: 科士達55%,隨機森林57%,SMO 58% 這些並不是最好的結果..

enter image description here

有沒有什麼想法,那幫助我提高得很好> >

+0

對於像twitter這樣的各種數據庫,你可能只是有太少的培訓數據。 –

回答

0

首先嚐試預處理您的數據。 Twitter數據包含很多噪音。刪除:

  1. URL
  2. 銳推
  3. 主題標籤
  4. 特殊字符 ,你可以做一件事是使用正克。嘗試不同的n-gram,並檢查哪一個最適合你。我的意見是採用unigrams + bigrams。

我也建議使用naiveBayesMultinomial分類器。它恰好在文本分類和情感分析方面效果最好.Plus也是超快的。如果你想要代碼預處理數據,請讓我知道:)