2014-01-28 59 views
2

隨着scikit學習,我已經建立了一個支持向量機,用於基本的手寫數字檢測問題。使用scikit-learn,如何通過小數據集學習SVM?

我的總數據集包括235個觀察值。我的觀察每個都包含1025個特徵。我知道使用支持向量機的優點之一就是在這種情況下,只有少量的觀察值具有大量的特徵。

創建我的SVM後,我看我的混淆矩陣(下)...

Confusion Matrix: 
[[ 6 0] 
[ 0 30]] 

...並認識到,伸出我的數據的15%用於測試(即36個觀察)是不足夠的。

我的問題是:我如何解決這個小數據問題,使用交叉驗證?

回答

1

這正是交叉驗證(及其泛化,如Err^0.632)的用途。只有在大量數據的情況下,保留設置纔是合理的。

+0

你是否在意詳細說明? –