使用scikit-learn，如何通過小數據集學習SVM？

隨着scikit學習，我已經建立了一個支持向量機，用於基本的手寫數字檢測問題。使用scikit-learn，如何通過小數據集學習SVM？

我的總數據集包括235個觀察值。我的觀察每個都包含1025個特徵。我知道使用支持向量機的優點之一就是在這種情況下，只有少量的觀察值具有大量的特徵。

創建我的SVM後，我看我的混淆矩陣（下）...

Confusion Matrix: 
[[ 6 0] 
[ 0 30]]

...並認識到，伸出我的數據的15％用於測試（即36個觀察）是不足夠的。

我的問題是：我如何解決這個小數據問題，使用交叉驗證？

這正是交叉驗證（及其泛化，如Err^0.632）的用途。只有在大量數據的情況下，保留設置纔是合理的。

2014-01-29 06:24:09 lejlot

你是否在意詳細說明？ –

回答