隨機森林接受數字數據。通常將帶有文本數據的要素轉換爲數字類別,並連續輸入數字數據,而不進行離散化處理。 RF如何處理創建節點的連續數據?它會在內部存儲連續的數字數據嗎?或將每個數據視爲離散級別。Scikit學習 - 隨機森林:如何處理連續特徵?
例如: 我想給一個數據集(在將文本特徵分類之後)提供給RF。 RF如何處理連續數據? 建議在飼餵前離散連續的數據(在這種情況下爲經度和緯度)?或者這樣做的信息丟失了?
隨機森林接受數字數據。通常將帶有文本數據的要素轉換爲數字類別,並連續輸入數字數據,而不進行離散化處理。 RF如何處理創建節點的連續數據?它會在內部存儲連續的數字數據嗎?或將每個數據視爲離散級別。Scikit學習 - 隨機森林:如何處理連續特徵?
例如: 我想給一個數據集(在將文本特徵分類之後)提供給RF。 RF如何處理連續數據? 建議在飼餵前離散連續的數據(在這種情況下爲經度和緯度)?或者這樣做的信息丟失了?
你問DecisionTrees
。因爲RandomForest
是集合模型,並且它本身並不知道關於數據的任何信息,它完全依賴來自基本估計量(在這種情況下爲DecisionTrees
)的決定,並將它們聚合。
那麼,如何DecisionTree
治療連續功能:看this官方文檔頁面。 DecisionTreeClassifier
適用於連續數據集(Fisher虹膜),如果您將查看樹的圖片 - 它在此節點上的某個選定特徵的每個節點上都有閾值。
據我所知,你在問如何選擇連續特徵的閾值。合併發生在值改變的地方。例如,對於x
作爲特徵和y
考慮以下1D數據集作爲類變量
x = [ 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
y = [ 1, 1, 0, 0, 0, 0, 0, 1, 1, 1]
的兩個可能的候選切口將考慮:(ⅰ)2和3之間(實際上將看起來像爲x < 2.5)和(ii)7至8之間(如x < 7.5)。 在這兩個候選人中,第二個候選人將被選中,因爲它提供了更好的分隔。他們的算法進入下一步。
因此,它是而不是建議您自己離散數據。用上面的數據考慮一下。例如,如果您將數據分散在5個倉位[1, 2 | 3, 4 | 5, 6 | 7, 8 | 9, 10]
中,則會錯過最佳分組(因爲7和8將位於一個倉位中)。