如何SciKit學習隨機森林子樣本量可能等於原始訓練數據的大小？

在SciKit-瞭解隨機森林分類器，它指出，如何SciKit學習隨機森林子樣本量可能等於原始訓練數據的大小？

子樣本大小的文件總是相同的原始輸入樣本大小，但樣品用替換繪製如果引導=真（默認）。

什麼我不明白的是，如果樣本大小總是比我們何談一個隨機選擇一樣的輸入樣本大小。這裏沒有選擇，因爲我們在每次訓練中使用所有（和自然相同的）樣本。

我在這裏錯過了什麼嗎？

2016-03-06 TAK

相信文檔的this part回答您的問題

在隨機森林（見RandomForestClassifier和 RandomForestRegressor班），在合奏每個樹是建立從置換（即，引導樣本抽取的樣本）從訓練集。 此外，結構樹中分割一個節點時，即選擇了分裂不再所有功能中最佳分裂。相反，即撈起分裂是的特點隨機子集之間的最佳分割。由於這個隨機性，森林的偏倚通常會略微增加（相對於單一非隨機樹的偏倚），但由於平均值的原因，森林的偏差也會減小，通常大於補償增加偏差，從而產生一個整體更好的模型。

理解的關鍵在於「樣品繪製與替換」。這意味着，每個實例可以繪製不止一次。這反過來意味着，火車組中的一些情況出現了幾次，有一些根本不在場（出門）。這些都是當然不是所有的樣品被選擇用於每個樹不同的樹

來源

2016-03-06 17:23:02 Lol4t0

這部分沒有問題，據說這些特徵是在一個_single_樹的每個分裂的構造中隨機選擇的。然而，我想知道的是，用於訓練每個不同樹的觀察值集合（換句話說，矩陣「X」）之間存在差異（我不是指在這裏單個樹中的分裂）。 – TAK

不同。默認情況下，每個樣本對於一棵特定的樹具有1（（N-1）/ N）^ N〜0.63的採樣機會，對於兩次採樣，其具有0.63^2的可能性，對於3次採樣，0.63^3 ......其中N是訓練集的樣本量。

每個bootstrap樣本選擇的平均值與其他bootstraps的平均值不同，因此決策樹充分不同，使得樹的平均預測對每個樹模型的方差都是魯棒的。如果樣本量可以增加到5倍，每個樹中的每個觀測值可能會出現3-7次，整體集合預測性能將受到影響。

來源

2016-03-07 15:46:46

如何SciKit學習隨機森林子樣本量可能等於原始訓練數據的大小？

回答

相關問題