Java中的迴歸機器學習特徵排名/評分

Java中是否有任何可用於迴歸數據集的特徵評分方法，其中類值是連續數字而不是二進制數？Java中的迴歸機器學習特徵排名/評分

ML-Lib feature scoring似乎只適用於分類數據集。

2015-12-22 Sumit

這很大程度上取決於您的迴歸算法。對於基於內核的迴歸算法來說，好的特性對於線性分類器可能相當不利。（https://en.wikipedia.org/wiki/Feature_selection）您似乎瞄準了「過濾方法」。在許多回歸設置中很好用的是Pearson Correlation。這在ML-Lib中也是可用的。

但是，你應該考慮到不加K個頂部相關功能，但

避免選擇對高相關的功能。所以你必須建立所有特徵對之間的相關矩陣。
選擇頂級特徵，構建迴歸模型，測量模型的誤差，測量誤差與其餘特徵之間的相關性。這將貪婪地選擇最佳功能
一旦你選擇了你的功能，你應該考慮做一個靈敏度分析。這就是爲所有功能建立一個迴歸模型，併爲所有功能已被刪除的功能集建立迴歸模型。如果刪除沒有顯着影響，您可以刪除它。

來源

2015-12-22 15:53:59 CAFEBABE

感謝您的詳細回覆。我目前的目標僅限於查找功能的排名。我正在使用線性SVR進行迴歸。我需要知道是否有一些基於Java的實現可以輕鬆實現基於過濾器的方法。 – Sumit

是的Weka。 Weka爲機器學習提供variouse算法。 http://weka.sourceforge.net/doc.dev/weka/attributeSelection/CorrelationAttributeEval.html （我把ML-Lib和http://spark.apache.org/mllib/混淆了） – CAFEBABE

Java中的迴歸機器學習特徵排名/評分

回答

相關問題