2017-09-16 75 views
-1

我不明白「較小的max_feature減少隨機森林中的過度擬合」的部分嗎? 另外,隨機森林中的裝袋意味着什麼?隨機森林中的套袋和max_feature

+0

這是更多的數據分析問題,而不是真正的編碼問題。 – Tony

回答

0

我會盡我所能向您解釋。你似乎是機器學習算法的新手。我相信你知道什麼是合適的!所以讓我解釋爲什麼隨機森林很容易發生這種情況。複製此用戶的答案:https://cs.stackexchange.com/users/30903/kyle-hale

曾經有一個叫梅爾的女孩。每天,梅爾和另一個朋友一起演出,每天她都演奏一個陽光明媚,美好的一天。

梅爾玩

喬丹在週一,

百合週二,

咪咪週三,

橄欖週四..然後

上週五梅爾發揮和Brianna一起下雨。這是一場可怕的雷暴!

更多的朋友,更多的朋友!

梅爾打了關上週六,

格雷森上週日,

阿薩在星期一......然後

週二梅爾玩布魯克並再次下雨了,比以前更差!

現在,梅爾的母親爲梅爾決定了她應該和誰一起玩耍的時間表,當晚,在晚餐時她開始告訴梅爾所有關於她排好的新時間表。 「週三的路易斯,週四的瑞恩,週五的傑米尼,週六的比安卡 - 」

梅爾皺眉。梅爾的媽媽問道:「怎麼啦,梅爾,你不喜歡比安卡嗎?」梅爾回答說:「哦,當然,她很棒,但是每次我和一個名字以B開頭的朋友一起玩,就會下雨!」

Mel的回答有什麼問題?

那麼,週六可能不會下雨。

好了,我不知道,我的意思是,布賴恩來了,下了雨,布魯克來了,下雨了......

是啊,我知道,但雨不依賴於你的朋友。

這正是隨機森林發生的情況。當添加由「max_feature」變量表示的太多功能時,您將盡力找到它們不存在的模式,並最終過度精確地處理您過度使用的現有數據。當你使用決策樹(隨機森林)時,你總能找到最合適的選擇,因爲你把樹分成了分支,每個分支都會從字面上考慮每個特徵和每一種可能性(如果有意義的話)。

什麼是叢林隨機森林?你必須首先理解隨機森林是如何沿着樹走過的(它產生許多樹並取某種平均值)並決定哪些要素被認爲是重要的,因此這需要你充分理解它的工作原理。你可能應該YouTube它。