高度稀疏數據集支持向量機

-1

我目前在高度稀疏數據集上使用SVM的問題。問題是我有N * M數據集，其中N個示例和M個特徵。 每個N幾乎沒有10個功能。高度稀疏數據集支持向量機

從現在開始，我將這些特徵表示爲二進制向量，即如果特徵在給定的0中存在，如果現在。 數據集是平衡的，我的準確率達到了94％。中華民國是0.93。我試圖理解爲什麼這個準確度會很高。

（1）任何人都可以請指導我相關的論文稀疏數據集是給予高精度，我可以嘗試找到如此高的準確性的原因。

（2）另外我打算使用SciKit Learn。任何人都可以建議我使用scikit學習SVM中的哪個函數，該函數是針對這種高稀疏度數據集設計的。

（3）此外，如果任何人可以試圖解釋我背後的這種高準確性的原因，那麼它會很好。

（4）此外，如果我將二進制特徵表示更改爲某種加權表示，是否會給我一些優勢。

來源

2014-07-21 user3859176

那麼，對於初學者來說，稀疏訓練數據並不一定意味着分類精度必須低。如果你能找到一個好的決策邊界，那麼數據是否稀疏並不重要。請記住，支持向量本身是一個非常小（=稀疏）的數據子集，但它們仍然足以用於分類目的。與機器學習一樣，算法結果高度依賴於所選問題域和參數。

爲了您的第二個問題，對於「SVM稀疏數據」第一谷歌結果顯示此鏈接： http://scikit-learn.org/stable/modules/svm.html

至於第四個問題，你只會知道答案一旦你嘗試了一下，沒人們可以預測結果，而無需瞭解有關您的方法和相關數據的更多細節。

來源

2014-07-21 11:15:12 cbg

高度稀疏數據集支持向量機

回答

相關問題