2015-10-05 70 views
2

我只是想知道是否有人可以提供一個很好的資源,讓我閱讀如何根據問題的複雜性來選擇解算器的超參數。基本上,據我所知,很多人覺得他們是「在黑暗中拍攝」的,當涉及到設置和修改這些參數時,基於特定問題/數據複雜度選擇參數的系統或基準已經逃脫了我。導航超參數

如果你想解釋你自己的方法,或只是提供你的來源評論,它將不勝感激。

+1

其中一個「超參數」是「weight_decay」。你可以找到一個討論它的作用的線程和一些「經驗法則」來設置它的值[這裏](http://stackoverflow.com/q/32177764/1714410)。 – Shai

回答

3

因爲我們在談論涉及反向傳播的超參數,這是一種基於漸變的方法,我相信主要參考文獻是Y. Bengio,以及更經典的Lecun et al.

有三種主要方法可以找出超參數的最優值。前兩篇在我鏈接的第一篇論文中得到了很好的解釋。

  • 手動搜索。研究人員通過嘗試錯誤選擇最佳值。
  • 自動搜索。研究人員依靠自動化程序來加速搜索。
  • 貝葉斯優化。你可以找到一個視頻here
+0

視頻很棒!偉大的理論。我會盡力與Bengio保持同步。很高興機器學習理論正在研究和編纂之中。 –

0
+0

來自Krizhevsky等人的論文。僅僅是一個選擇(好)超參數的例子。它沒有提供他們選擇的方法論或理論基礎,例如批量大小,學習速度或體重衰減。 –

+0

如果有理論基礎,它會容易得多!據我所知,這是所有嘗試和錯誤或計算機輔助試驗和錯誤。 – cgarner

+0

確實。請繼續關注Yoshua Bengio的工作,他的實驗室正在努力深入學習理論。 –