2013-02-28 17 views
3

我在尋找一種算法建立對象檢測分類。分類器將用於通過對象的特徵來檢測交通場景中的汽車。我研究過像boost和多實例學習算法,但它們似乎不適合我的情況。我有兩個數據集,一個是正樣本,另一個是負樣本,但這些數據集只包含一小部分錯誤(< 10%)。數據集中的錯誤無法手動移除,因爲我的目標是在線生成數據集而不會受到人爲干擾。錯誤在訓練集的分類算法

所以我的問題是:沒有人知道一個合適的算法(如果有的話)用於訓練分類可以在正面和負面的訓練集處理錯誤的一個比較小的比例?

感謝, 湯姆

+3

幾乎所有的分類算法可以處理標籤錯誤,你只會變得更糟測試集的性能。您應該考慮二進制分類算法的一般領域。提升本身不是算法,因爲它需要一個潛在的分類器來工作。 – 2013-02-28 17:12:46

+0

10%不應該是一個大數字。多實例學習是一種處理標籤錯誤的方法,但它用於完全不同的目的,如果你想... – 2013-02-28 21:05:33

+0

謝謝,我開始關注隨機森林。到目前爲止,這一切都很順利。 – 2013-03-11 10:28:11

回答

0

所有現實世界的數據會有誤差。如果你知道具體的錯誤,你應該在訓練前過濾它們。捕捉這些錯誤的最好方法是逐漸訓練分類器。每當你添加到你的語料庫並重新訓練一個新的分類器時,你應該檢查精確度,回憶和F1。如果新的分類器性能更差,那麼您知道您在工作語料庫中添加了一些必須退出的垃圾。

你絕對不應該離開垃圾在你的陰莖,你會殺了你的準確度。如果您從不可信來源攝取數據,則可能會故意顛覆分類器中的錯誤數據。因此,您應該有某種過濾器或領域專家在提供給分類器之前查看新數據,以確保您維護黃金標準語料庫。