0

我最近觀看了一個視頻,解釋了對於深度學習,如果添加更多數據,則不需要太多的正則化,這是有道理的。正規化與完整數據集機器學習

這就是說,這個聲明是否適用於像「隨機森林」這樣的「正常」機器學習算法?如果是這樣,當爲該算法搜索最佳的超參數時,理論上你應該有輸入數據集(當然這會進一步劃分爲交叉驗證集等)和您擁有的數據一樣多,而不僅僅是樣本它。這當然意味着更長的訓練時間,對於超參數的每個組合,您都有需要接受訓練的X個交叉驗證集合等等。

所以基本上,假設對於數據集的大小合適的樣本發現的參數是用於整個數據集的「最佳」參數還是不公平?

回答

1

從統計學家的角度來講:這實際上取決於你的估計量的質量。如果它沒有偏差和低方差,那麼一個樣本將會很好。如果差異很大,則需要使用所有可以使用的數據。