我想分類使用weka和樸素貝葉斯分類器的一些web帖子。Weka:列車和測試集不兼容
首先我手動分類很多帖子(約100陰性和陽性100),我創建了這個形式的.arff文件:
@relation classtest
@attribute 'post' string
@attribute 'class' {positive,negative}
@data
'RT @burnreporter: Google has now indexed over 30 trillion URLs. Wow. #LeWeb',positive
'A special one for me Soundcloud at #LeWeb ',positive
'RT @dianaurban: Lost Internet for 1/2 hour at a conference called #LeWeb. Ironic, yes?',negative
.
.
.
然後我打開Weka的資源管理器加載該文件,並應用StringToWordVector
篩選以分離單個詞屬性中的帖子。
然後,做同樣與我的數據集,選擇(在秧雞的分類標籤)naive bayes
分類並選擇選擇測試集後,就返回Train and test set are not compatible
。我能做什麼?謝謝!