2014-07-02 87 views

回答

0

你有越多的訓練實例,少你的分類能夠正確地檢測真陽性。

這意味着新數據不適合您正在訓練的模型。

這是一個簡單的例子。

下面你有兩個類,我們可以很容易地使用線性內核來分離它們。 藍色類的靈敏度爲1

enter image description here

正如我添加的決定邊界附近更黃的訓練數據,所生成的超平面不能擬合數據以及之前。

因此,我們現在看到有兩個錯誤分類的藍色數據點。 藍色類的靈敏度現在0.92

enter image description here

是作爲訓練數據的數量增加時,支持向量產生稍差最佳超平面。也許由於額外的數據,線性可分數據集變得非線性可分。在這種情況下嘗試不同的內核,比如RBF內核可以提供幫助。

編輯:添加更多的信息有關RBF內核:

In this video你可以看到一個帶有RBF內核發生什麼。 同樣的邏輯適用,如果訓練數據不容易在n維中分離,那麼結果會更差。

您應該嘗試使用交叉驗證來選擇更好的C語言。

this paper,圖3說明,如果C選擇不正確的結果可能會更糟:如果我們不挑一個合適的C.我們需要 交叉

更多的訓練數據可能會傷害驗證正確的C以產生良好的結果

+0

嗨@alexandrekow,謝謝你的回答。我正在使用RBF內核,仍然有這個問題。 – leon

+0

我更新了我的答案。 – alexandrekow