我使用單類SVM進行異常檢測。似乎隨着訓練樣本數量的增加,一類SVM檢測結果的靈敏度TP /(TP + FN)下降,分類率和特異性都增加。單類支持向量機靈敏度在訓練樣本數量增加時下降
用超平面和支持向量來解釋這種關係的最好方法是什麼?
感謝
我使用單類SVM進行異常檢測。似乎隨着訓練樣本數量的增加,一類SVM檢測結果的靈敏度TP /(TP + FN)下降,分類率和特異性都增加。單類支持向量機靈敏度在訓練樣本數量增加時下降
用超平面和支持向量來解釋這種關係的最好方法是什麼?
感謝
你有越多的訓練實例,少你的分類能夠正確地檢測真陽性。
這意味着新數據不適合您正在訓練的模型。
這是一個簡單的例子。
下面你有兩個類,我們可以很容易地使用線性內核來分離它們。 藍色類的靈敏度爲1
正如我添加的決定邊界附近更黃的訓練數據,所生成的超平面不能擬合數據以及之前。
因此,我們現在看到有兩個錯誤分類的藍色數據點。 藍色類的靈敏度現在0.92
是作爲訓練數據的數量增加時,支持向量產生稍差最佳超平面。也許由於額外的數據,線性可分數據集變得非線性可分。在這種情況下嘗試不同的內核,比如RBF內核可以提供幫助。
編輯:添加更多的信息有關RBF內核:
In this video你可以看到一個帶有RBF內核發生什麼。 同樣的邏輯適用,如果訓練數據不容易在n維中分離,那麼結果會更差。
您應該嘗試使用交叉驗證來選擇更好的C語言。
在this paper,圖3說明,如果C選擇不正確的結果可能會更糟:如果我們不挑一個合適的C.我們需要 交叉
更多的訓練數據可能會傷害驗證正確的C以產生良好的結果
嗨@alexandrekow,謝謝你的回答。我正在使用RBF內核,仍然有這個問題。 – leon
我更新了我的答案。 – alexandrekow