假設你正在嘗試使用機器學習的分類任務,比如說,看動物的照片和區分馬匹與斑馬。這項工作似乎處於最先進的狀態。當真正的肯定是罕見
但是如果你拿一束帶標籤的照片並將它們扔在像神經網絡或支持向量機之類的東西上,實際上會發生什麼事情,斑馬比馬更罕見,系統最終學會說'總是一匹馬「,因爲這實際上是減少錯誤的方法。
可能是最小的錯誤,但它也不是一個非常有用的結果。推薦的方式是什麼?告訴系統'我想要最好地猜測照片是斑馬,即使這會產生一些誤報'?似乎沒有很多關於這個問題的討論。
假設你正在嘗試使用機器學習的分類任務,比如說,看動物的照片和區分馬匹與斑馬。這項工作似乎處於最先進的狀態。當真正的肯定是罕見
但是如果你拿一束帶標籤的照片並將它們扔在像神經網絡或支持向量機之類的東西上,實際上會發生什麼事情,斑馬比馬更罕見,系統最終學會說'總是一匹馬「,因爲這實際上是減少錯誤的方法。
可能是最小的錯誤,但它也不是一個非常有用的結果。推薦的方式是什麼?告訴系統'我想要最好地猜測照片是斑馬,即使這會產生一些誤報'?似乎沒有很多關於這個問題的討論。
對於這種類型的數據不平衡的問題,它是一個很好的方法來學習與每個類相關的模式,而不是簡單地比較類 - 這可以通過首先進行無監督學習學習(例如使用自動編碼器)來完成。這是一篇很好的文章,可在https://www.r-bloggers.com/autoencoders-and-anomaly-detection-with-machine-learning-in-fraud-analytics/amp/找到。另一個建議 - 在運行分類器之後,可以使用混淆矩陣來確定追加數據的位置(即許多斑馬線錯誤)
就在我頭頂的位置,您可以用數據集訓練模型嗎?人爲地高百分比的斑馬,然後用它在實際照片中發現它們很少的斑馬? –
另外,我想提一提的是,您可能會在Stack Overflow的姊妹站點「交叉驗證」中獲得更好的響應(或者找到類似的問題)。 https://stats.stackexchange.com/ –