Q

由weka分類數據集（stringToWord）過濾器

2016-04-29 38 views -1 likes

-1

我是weka中的新成員。由weka分類數據集（stringToWord）過濾器

我有一個關於特定公司的數據集（twitter數據）.. 我使用的過濾器：字符串到字..我更改選項wordstokeep = 100，以提高準確性。然後我申請分類：科士達55％，隨機森林57％，SMO 58％這些並不是最好的結果..

有沒有什麼想法，那幫助我提高得很好> >

2016-04-29 user2199395

+0

對於像twitter這樣的各種數據庫，你可能只是有太少的培訓數據。 –

A

回答

0

首先嚐試預處理您的數據。 Twitter數據包含很多噪音。刪除：

URL
銳推
主題標籤
特殊字符，你可以做一件事是使用正克。嘗試不同的n-gram，並檢查哪一個最適合你。我的意見是採用unigrams + bigrams。

我也建議使用naiveBayesMultinomial分類器。它恰好在文本分類和情感分析方面效果最好.Plus也是超快的。如果你想要代碼預處理數據，請讓我知道:)

2016-04-30 03:10:34

相關問題