我有一個1k記錄的數據集,我的工作是根據這些記錄做一個決策算法。 這裏是我可以分享:迴歸樹與標準差減少
的目標是連續值。
一些預測(或屬性)的是連續值, 它們中的一些是離散的,有些是離散值 (可以有多於一個選項)
我最初的想法的陣列分離離散值的數組並使其成爲單獨的特徵(預測因子)。對於預測變量中的連續值,我只想隨機選擇一些決策邊界,並查看哪一個最能減少熵。然後製作一棵決策樹(或隨機森林),在創建樹時使用標準偏差減少。
我的問題是:我在正確的道路上?有沒有更好的方法來做到這一點?
我有一個1k記錄的數據集,我的工作是根據這些記錄做一個決策算法。 這裏是我可以分享:迴歸樹與標準差減少
的目標是連續值。
一些預測(或屬性)的是連續值, 它們中的一些是離散的,有些是離散值 (可以有多於一個選項)
我最初的想法的陣列分離離散值的數組並使其成爲單獨的特徵(預測因子)。對於預測變量中的連續值,我只想隨機選擇一些決策邊界,並查看哪一個最能減少熵。然後製作一棵決策樹(或隨機森林),在創建樹時使用標準偏差減少。
我的問題是:我在正確的道路上?有沒有更好的方法來做到這一點?
我知道這可能有點晚,但你正在尋找的是模型樹。模型樹是連續的評價者而不是樹葉中的分類值的決策樹。通常這些值是通過線性迴歸模型預測的。其中一個比較突出的模型樹和一個或多或少適合您需求的模型樹是由Quinlan介紹的M5模型樹。 Wang和Witten重新實現了M5並擴展了它的功能,以便它可以處理連續屬性和分類屬性。他們的版本被稱爲M5',你可以找到一個實現,例如在Weka。唯一剩下的就是處理數組。但是,您的描述在這方面有點通用。從我收集你的選擇要麼變平,要麼像你所建議的那樣,把它們分開。
請注意,自從Wang和Witten的工作以來,已經引入了更復雜的模型樹。然而,M5'是強大的,不需要在其原始配方中進行任何參數化,這使得它易於使用。