2016-03-06 37 views
3

在SciKit-瞭解隨機森林分類器,它指出,如何SciKit學習隨機森林子樣本量可能等於原始訓練數據的大小?

子樣本大小的文件總是相同的原始輸入樣本大小,但樣品用替換繪製如果引導=真(默認)。

什麼我不明白的是,如果樣本大小總是比我們何談一個隨機選擇一樣的輸入樣本大小。這裏沒有選擇,因爲我們在每次訓練中使用所有(和自然相同的)樣本。

我在這裏錯過了什麼嗎?

回答

3

相信文檔的this part回答您的問題

在隨機森林(見RandomForestClassifier和 RandomForestRegressor班),在合奏每個樹是建立從置換(即,引導樣本抽取的樣本 )從 訓練集。 此外, 結構樹中分割一個節點時,即選擇了分裂不再所有功能中 最佳分裂。相反,即撈起分裂是 的特點隨機子集之間的最佳分割。由於 這個隨機性,森林的偏倚通常會略微增加(相對於單一非隨機樹的偏倚),但由於平均值的原因,森林的偏差也會減小,通常大於補償 增加偏差,從而產生一個整體更好的模型。

理解的關鍵在於「樣品繪製與替換」。這意味着,每個實例可以繪製不止一次。這反過來意味着,火車組中的一些情況出現了幾次,有一些根本不在場(出門)。這些都是當然不是所有的樣品被選擇用於每個樹不同的樹

+0

這部分沒有問題,據說這些特徵是在一個_single_樹的每個分裂的構造中隨機選擇的。然而,我想知道的是,用於訓練每個不同樹的觀察值集合(換句話說,矩陣「X」)之間存在差異(我不是指在這裏單個樹中的分裂)。 – TAK

1

不同。默認情況下,每個樣本對於一棵特定的樹具有1((N-1)/ N)^ N〜0.63的採樣機會,對於兩次採樣,其具有0.63^2的可能性,對於3次採樣,0.63^3 ......其中N是訓練集的樣本量。

每個bootstrap樣本選擇的平均值與其他bootstraps的平均值不同,因此決策樹充分不同,使得樹的平均預測對每個樹模型的方差都是魯棒的。如果樣本量可以增加到5倍,每個樹中的每個觀測值可能會出現3-7次,整體集合預測性能將受到影響。

相關問題