我只是想知道是否有人可以提供一個很好的資源,讓我閱讀如何根據問題的複雜性來選擇解算器的超參數。基本上,據我所知,很多人覺得他們是「在黑暗中拍攝」的,當涉及到設置和修改這些參數時,基於特定問題/數據複雜度選擇參數的系統或基準已經逃脫了我。導航超參數
如果你想解釋你自己的方法,或只是提供你的來源評論,它將不勝感激。
我只是想知道是否有人可以提供一個很好的資源,讓我閱讀如何根據問題的複雜性來選擇解算器的超參數。基本上,據我所知,很多人覺得他們是「在黑暗中拍攝」的,當涉及到設置和修改這些參數時,基於特定問題/數據複雜度選擇參數的系統或基準已經逃脫了我。導航超參數
如果你想解釋你自己的方法,或只是提供你的來源評論,它將不勝感激。
因爲我們在談論涉及反向傳播的超參數,這是一種基於漸變的方法,我相信主要參考文獻是Y. Bengio,以及更經典的Lecun et al.。
有三種主要方法可以找出超參數的最優值。前兩篇在我鏈接的第一篇論文中得到了很好的解釋。
視頻很棒!偉大的理論。我會盡力與Bengio保持同步。很高興機器學習理論正在研究和編纂之中。 –
,我認爲這是主要的參考:
http://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf
也可參加一起來看看第5章: http://neuralnetworksanddeeplearning.com/
來自Krizhevsky等人的論文。僅僅是一個選擇(好)超參數的例子。它沒有提供他們選擇的方法論或理論基礎,例如批量大小,學習速度或體重衰減。 –
如果有理論基礎,它會容易得多!據我所知,這是所有嘗試和錯誤或計算機輔助試驗和錯誤。 – cgarner
確實。請繼續關注Yoshua Bengio的工作,他的實驗室正在努力深入學習理論。 –
其中一個「超參數」是「weight_decay」。你可以找到一個討論它的作用的線程和一些「經驗法則」來設置它的值[這裏](http://stackoverflow.com/q/32177764/1714410)。 – Shai