4

我正在使用Scikit的決策樹學習對數據集進行迴歸。 我獲得了非常好的結果,但有一個問題值得我關注,許多功能的相對不確定性非常高。
我嘗試過放棄具有高度不確定性的情況,但這顯着降低了模型的性能。如何將特徵的不確定性納入機器學習算法?

特徵本身是由實驗確定的,所以它們具有相關的實驗不確定性。數據本身不嘈雜。

所以我的問題有沒有一種很好的方法將與特徵相關的不確定性與機器學習算法結合起來?

感謝您的幫助!

+0

添加隨機噪聲不明朗的特點,做到每個突變數據集的迴歸,並計算迴歸參數的統計數據? – DyZ

+0

您能否詳細說明「許多功能的相對不確定性非常高」?例如,您是否期望輸入數據有很多噪音?如果出現這種情況,您可以嘗試很多噪音消除/減少/調節策略。 – ctj232

+0

特徵本身是通過實驗確定的,因此它們具有相關的實驗不確定性。 數據本身不嘈雜。 –

回答

2

如果不確定的特徵正在改進算法,它們一起表明它們是有用的。但是,其中一些可能不是。我的建議是擺脫那些不改進算法的功能。您可以使用貪婪特徵消除算法。

http://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.RFE.html

這開始通過訓練模型中的所有功能的模型,然後擺脫了功能被認爲是最有用的。它再次訓練模型,但少了一個特徵。

希望幫助

+0

謝謝!這實際上是我最終做的!我現在正在閱讀一些不確定性量化文本,看看我是否可以直接在將來傳播錯誤。 –

+0

聽起來不錯。很高興你發現它很有幫助,如果你發現它最有用,你會介意選擇我的答案嗎?非常感謝 :) –