2015-05-18 37 views
2

我已經建立了一個使用weka的分類模型。我有兩個類,即{垃圾郵件,非垃圾郵件}在應用stringtowordvector過濾器後,我獲得了19000條記錄的10000個屬性。然後我使用liblinear庫來構建模型,它給了我F-得分如下: 垃圾郵件94% 非垃圾郵件的98%爲什麼Weka中的分類模型將所有實例預測爲一個類?

當我使用相同的模型來預測新的情況下,預測它們作爲垃圾郵件。 另外,當我嘗試使用與訓練集相同的測試集時,它也將它們全部預測爲垃圾郵件。我精神疲憊地發現問題。任何幫助將不勝感激。

回答

0

我每隔一段時間就會弄錯一次。然後我看這個視頻來提醒自己它是如何完成的:https://www.youtube.com/watch?v=Tggs3Bd3ojQ其中Weka開發人員/架構師之一的Prof Witten展示瞭如何在訓練數據集上使用FilteredClassifier(進而配置爲加載StringToWordVector過濾器),並且測試集正確。

這顯示weka 3.6,weka 3.7。可能略有不同。

ZeroR給你什麼?如果它接近100%,那麼你知道任何分類算法都不應該太遠。

爲什麼要優化F-Measure?只是問問。我從來沒有用過這個,也不太瞭解它。 (假設你的垃圾郵件比Nonspam多得多,我會優化「精確度」指標)。

+1

我發現了這個問題。在測試實例時,我沒有將字符串應用於單詞向量過濾器。 – user2335004

相關問題