我有一個不平衡的訓練數據,我在weka中使用邏輯迴歸進行分類。如何分類weka中的不平衡數據?
有兩類好與壞。好的有75000個實例和不好的 3000.我的測試數據有10000個好數據。
當我訓練它更傾向於良好的數據,即它將幾乎所有壞的事例分類好。我該怎麼辦 ? 我試圖在訓練數據中使用10000個好實例,而不是75000,但問題仍然存在。
我有一個不平衡的訓練數據,我在weka中使用邏輯迴歸進行分類。如何分類weka中的不平衡數據?
有兩類好與壞。好的有75000個實例和不好的 3000.我的測試數據有10000個好數據。
當我訓練它更傾向於良好的數據,即它將幾乎所有壞的事例分類好。我該怎麼辦 ? 我試圖在訓練數據中使用10000個好實例,而不是75000,但問題仍然存在。
不確定關於python,但在gui版本中,您可以使用SpreadSubsample來減少類的不平衡。如果你覺得'壞'是一個很好的代表,那麼你可以嘗試不同數量的'好'實例。
要做到這一點,你需要選擇過濾器==>監督==>實例==> SpreadSubsample ==>更改使用「最大計數」實例的數量
有一對夫婦的事情,你可以嘗試。
沒有任何信息很難說。你的數據集中是否還有一個匿名唯一標識符?如果是這樣,請刪除該屬性。 – knb