2014-07-21 52 views
-1

我目前在高度稀疏數據集上使用SVM的問題。問題是我有N * M數據集,其中N個示例和M個特徵。 每個N幾乎沒有10個功能高度稀疏數據集支持向量機

從現在開始,我將這些特徵表示爲二進制向量,即如果特徵在給定的0中存在,如果現在。 數據集是平衡的,我的準確率達到了94%。中華民國是0.93。我試圖理解爲什麼這個準確度會很高。

(1)任何人都可以請指導我相關的論文稀疏數據集是給予高精度,我可以嘗試找到如此高的準確性的原因。

(2)另外我打算使用SciKit Learn。任何人都可以建議我使用scikit學習SVM中的哪個函數,該函數是針對這種高稀疏度數據集設計的。

(3)此外,如果任何人可以試圖解釋我背後的這種高準確性的原因,那麼它會很好。

(4)此外,如果我將二進制特徵表示更改爲某種加權表示,是否會給我一些優勢。

回答

0

那麼,對於初學者來說,稀疏訓練數據並不一定意味着分類精度必須低。如果你能找到一個好的決策邊界,那麼數據是否稀疏並不重要。請記住,支持向量本身是一個非常小(=稀疏)的數據子集,但它們仍然足以用於分類目的。與機器學習一樣,算法結果高度依賴於所選問題域和參數。

爲了您的第二個問題,對於「SVM稀疏數據」第一谷歌結果顯示此鏈接: http://scikit-learn.org/stable/modules/svm.html

至於第四個問題,你只會知道答案一旦你嘗試了一下,沒人們可以預測結果,而無需瞭解有關您的方法和相關數據的更多細節。