對於數據挖掘競賽,我正在構建一個流失預測模型。我有一個帶有標籤和無測試數據集的訓練數據集。爲了建立我的模型,我使用了一些過濾器來預處理訓練數據集。我使用InterquartileRange
,RemoveWithValues
和RemoveAttributes
過濾器(因爲InterquartileRange
爲異常值和極值創建了新屬性)搜索並刪除了異常值和極值。Weka分類與訓練集中移除的實例
我知道Weka需要提供的測試集和訓練集具有相同的過濾器,但我需要測試集中的所有實例來查看預測得分。因此,我無法應用RemoveWithValues
過濾器。由於這個原因,我得到了「測試和訓練集不兼容」。這個問題能解決嗎?總而言之,我想用一個建立在訓練集上的模型來獲取我的測試集的所有實例的分數,而沒有極端值和異常值。
+1非常好的答案!也許最後的問題應該是評論。 – manlio
@manlio你說得對,我會改變這一點 – Sentry