關於h2o.glm lambda search not appearing to iterate over all lambdas,我讀到這個問題,抱怨lambda太高;他們試圖設置early_stopping=F
,希望能解決這個「bug」。當使用GLM lambda搜索進行交叉驗證時,您需要注意什麼?
是不是原來的行爲是一個功能,而不是一個錯誤?如果這是正確的,那麼當使用GLM進行交叉驗證時,您應始終使用early_stopping=T
,否則交叉驗證的錯誤估計是無用的;你也有過度裝修的風險。
(我的主要問題是,如果我對GLM和CV一起工作的方式的理解是正確的;但是如果在使用lambda_search和交叉驗證時需要注意任何其他事情,我會感興趣。)
感謝Tomas,這很有趣。在相關問題中,3 cv摺疊的最佳λ值爲0.011,0.018,0.016,但模型的最佳拉姆達值爲0.106(即10倍大)。它看起來不是基於交叉驗證挑選出來的,但是對於一些不尋常的數據,這仍然是可能的嗎? (或者這也是#4858早期停止錯誤的症狀?) –