我目前在高度稀疏數據集上使用SVM的問題。問題是我有N * M數據集,其中N個示例和M個特徵。 每個N幾乎沒有10個功能。高度稀疏數據集支持向量機
從現在開始,我將這些特徵表示爲二進制向量,即如果特徵在給定的0中存在,如果現在。 數據集是平衡的,我的準確率達到了94%。中華民國是0.93。我試圖理解爲什麼這個準確度會很高。
(1)任何人都可以請指導我相關的論文稀疏數據集是給予高精度,我可以嘗試找到如此高的準確性的原因。
(2)另外我打算使用SciKit Learn。任何人都可以建議我使用scikit學習SVM中的哪個函數,該函數是針對這種高稀疏度數據集設計的。
(3)此外,如果任何人可以試圖解釋我背後的這種高準確性的原因,那麼它會很好。
(4)此外,如果我將二進制特徵表示更改爲某種加權表示,是否會給我一些優勢。