我正在一個項目中使用Spark Mllib線性支持向量機對一些數據進行分類(l2正則化)。我有200個積極的觀察結果和150個(產生的)消極觀察結果,每個數據具有744個特徵,代表了房屋不同區域的人的活動水平。線性支持向量機與非線性支持向量機高維數據
我已經運行了一些測試,並且「areaUnderROC」度量值爲0.991,並且似乎該模型在對我提供給它的數據進行分類時非常好。 我做了一些研究,發現線性SVM在高維數據中很好,但問題是我不明白線性如何能夠很好地分割我的數據。
我覺得在2D,也許這是問題,但找底部的形象,我90%肯定,我的數據看起來更像是一個非線性問題
所以這是正常的,我有一個好測試結果?難道我做錯了什麼?我應該改變方法嗎?