2017-09-07 77 views
0

假設你正在嘗試使用機器學習的分類任務,比如說,看動物的照片和區分馬匹與斑馬。這項工作似乎處於最先進的狀態。當真正的肯定是罕見

但是如果你拿一束帶標籤的照片並將它們扔在像神經網絡或支持向量機之類的東西上,實際上會發生什麼事情,斑馬比馬更罕見,系統最終學會說'總是一匹馬「,因爲這實際上是減少錯誤的方法。

可能是最小的錯誤,但它也不是一個非常有用的結果。推薦的方式是什麼?告訴系統'我想要最好地猜測照片是斑馬,即使這會產生一些誤報'?似乎沒有很多關於這個問題的討論。

+1

就在我頭頂的位置,您可以用數據集訓練模型嗎?人爲地高百分比的斑馬,然後用它在實際照片中發現它們很少的斑馬? –

+0

另外,我想提一提的是,您可能會在Stack Overflow的姊妹站點「交叉驗證」中獲得更好的響應(或者找到類似的問題)。 https://stats.stackexchange.com/ –

回答

1

我通常對不平衡類(或傾斜數據集)做的事情之一就是生成更多數據。我認爲這是最好的方法。你可以在真實世界中外出並收集更多不平衡班級的數據(例如,查找更多斑馬圖片)。您也可以通過簡單複製或複製轉換(例如水平翻轉)來生成更多數據。

您也可以選擇一個使用替代評估(性能)指標的分類器,這個指標比通常使用的評估(性能)指標更高 - 準確性。看精度/回憶/ F1分數。有關此主題的安德魯·Ng的ML當然會談6

周:link

這裏是另一個很好的網頁我的處理不平衡類發現:link

1

對於這種類型的數據不平衡的問題,它是一個很好的方法來學習與每個類相關的模式,而不是簡單地比較類 - 這可以通過首先進行無監督學習學習(例如使用自動編碼器)來完成。這是一篇很好的文章,可在https://www.r-bloggers.com/autoencoders-and-anomaly-detection-with-machine-learning-in-fraud-analytics/amp/找到。另一個建議 - 在運行分類器之後,可以使用混淆矩陣來確定追加數據的位置(即許多斑馬線錯誤)