導航超參數

我只是想知道是否有人可以提供一個很好的資源，讓我閱讀如何根據問題的複雜性來選擇解算器的超參數。基本上，據我所知，很多人覺得他們是「在黑暗中拍攝」的，當涉及到設置和修改這些參數時，基於特定問題/數據複雜度選擇參數的系統或基準已經逃脫了我。導航超參數

如果你想解釋你自己的方法，或只是提供你的來源評論，它將不勝感激。

其中一個「超參數」是「weight_decay」。你可以找到一個討論它的作用的線程和一些「經驗法則」來設置它的值[這裏]（http://stackoverflow.com/q/32177764/1714410）。 – Shai

因爲我們在談論涉及反向傳播的超參數，這是一種基於漸變的方法，我相信主要參考文獻是Y. Bengio，以及更經典的Lecun et al.。

有三種主要方法可以找出超參數的最優值。前兩篇在我鏈接的第一篇論文中得到了很好的解釋。

2015-10-06 14:02:34

視頻很棒！偉大的理論。我會盡力與Bengio保持同步。很高興機器學習理論正在研究和編纂之中。 –

，我認爲這是主要的參考：

2015-10-06 09:13:06 cgarner

來自Krizhevsky等人的論文。僅僅是一個選擇（好）超參數的例子。它沒有提供他們選擇的方法論或理論基礎，例如批量大小，學習速度或體重衰減。 –

如果有理論基礎，它會容易得多！據我所知，這是所有嘗試和錯誤或計算機輔助試驗和錯誤。 – cgarner

確實。請繼續關注Yoshua Bengio的工作，他的實驗室正在努力深入學習理論。 –

回答