我使用scikit工具(Normalizer()。transform)爲每個樣本單獨構建了一個包含13個特徵(無二進制特徵)的分類器並對其進行了歸一化。分類器預測結果有偏差
當我做出預測它預測所有的訓練集作爲陽性和所有測試集爲陰性(實際上不論是正面還是負面)
我應該專注於我的分類,功能或數據有什麼異常? ??
備註:1)我將測試和訓練集(分別針對每個樣本)分開歸一化。
2)我試圖交叉驗證但性能相同
3)I同時使用線性SVM和RBF內核
4)我試圖未經標準化了。但同樣差的結果
5)我有相同數量的正數據集和負數據集(每個400個)以及34個正樣本和1000個以上樣本的負測試集。
我會嘗試第一個建議。其實我使用MRMR技術進行特徵選擇。但我懷疑第二個數據有很多異常值。我假設創建負數據集(分類器無法預測)非常大。因此,你可以向我建議一些技巧,提供實用的鏈接和資源,我可以用它們去除異常值。我嘗試過使用支持向量機的異常檢測技術,但似乎我在那裏也失敗了。請幫助我。 – Ashutosh
那麼,異常值可能意味着很多不同的事情。與其嘗試更復雜的方法,不如嘗試更簡單的方法來找出數據或數據準備過程中正在發生的事情。這不僅僅是建模技術,可能是你正在觀察的根源。 – cohoz
好的...任何具體的協議或方法來弄清楚(數據或數據準備過程的問題)? – Ashutosh