2015-12-22 90 views

回答

1

這很大程度上取決於您的迴歸算法。對於基於內核的迴歸算法來說,好的特性對於線性分類器可能相當不利。 (https://en.wikipedia.org/wiki/Feature_selection) 您似乎瞄準了「過濾方法」。在許多回歸設置中很好用的是Pearson Correlation。這在ML-Lib中也是可用的。

但是,你應該考慮到不加K個頂部相關功能,但

  1. 避免選擇對高相關的功能。所以你必須建立所有特徵對之間的相關矩陣。
  2. 選擇頂級特徵,構建迴歸模型,測量模型的誤差,測量誤差與其餘特徵之間的相關性。這將貪婪地選擇最佳功能
  3. 一旦你選擇了你的功能,你應該考慮做一個靈敏度分析。這就是爲所有功能建立一個迴歸模型,併爲所有功能已被刪除的功能集建立迴歸模型。如果刪除沒有顯着影響,您可以刪除它。
+1

感謝您的詳細回覆。我目前的目標僅限於查找功能的排名。我正在使用線性SVR進行迴歸。我需要知道是否有一些基於Java的實現可以輕鬆實現基於過濾器的方法。 – Sumit

+0

是的Weka。 Weka爲機器學習提供variouse算法。 http://weka.sourceforge.net/doc.dev/weka/attributeSelection/CorrelationAttributeEval.html (我把ML-Lib和http://spark.apache.org/mllib/混淆了) – CAFEBABE