爲什麼Weka中的分類模型將所有實例預測爲一個類？

我已經建立了一個使用weka的分類模型。我有兩個類，即{垃圾郵件，非垃圾郵件}在應用stringtowordvector過濾器後，我獲得了19000條記錄的10000個屬性。然後我使用liblinear庫來構建模型，它給了我F-得分如下：垃圾郵件94％非垃圾郵件的98％爲什麼Weka中的分類模型將所有實例預測爲一個類？

當我使用相同的模型來預測新的情況下，預測它們作爲垃圾郵件。另外，當我嘗試使用與訓練集相同的測試集時，它也將它們全部預測爲垃圾郵件。我精神疲憊地發現問題。任何幫助將不勝感激。

來源

2015-05-18 user2335004

我每隔一段時間就會弄錯一次。然後我看這個視頻來提醒自己它是如何完成的：https://www.youtube.com/watch?v=Tggs3Bd3ojQ其中Weka開發人員/架構師之一的Prof Witten展示瞭如何在訓練數據集上使用FilteredClassifier（進而配置爲加載StringToWordVector過濾器），並且測試集正確。

這顯示weka 3.6，weka 3.7。可能略有不同。

ZeroR給你什麼？如果它接近100％，那麼你知道任何分類算法都不應該太遠。

爲什麼要優化F-Measure？只是問問。我從來沒有用過這個，也不太瞭解它。（假設你的垃圾郵件比Nonspam多得多，我會優化「精確度」指標）。

來源

2015-05-19 16:44:10 knb

我發現了這個問題。在測試實例時，我沒有將字符串應用於單詞向量過濾器。 – user2335004

爲什麼Weka中的分類模型將所有實例預測爲一個類？

回答

相關問題