1
分類器網絡的隱藏層使用sigmoid或其他激活函數來引入非線性並規範化數據,但最後一層使用sigmoid與softmax結合使用嗎?分類器神經網絡的最後一層是否同時使用sigmoid和softmax?
我有一種感覺並不重要,網絡會訓練任何一種方式 - 但是應該只使用softmax層?或者應該首先應用sigmoid函數?
分類器網絡的隱藏層使用sigmoid或其他激活函數來引入非線性並規範化數據,但最後一層使用sigmoid與softmax結合使用嗎?分類器神經網絡的最後一層是否同時使用sigmoid和softmax?
我有一種感覺並不重要,網絡會訓練任何一種方式 - 但是應該只使用softmax層?或者應該首先應用sigmoid函數?
一般來說,在softmax輸出層之前附加的sigmoid激活沒有意義。由於sigmoid函數爲a partial case of softmax,因此它將連續兩次擠壓值爲[0, 1]
的區間,這將產生幾乎一致的輸出分佈。當然,你可以通過這個傳播,但效率會低得多。順便說一下,如果你選擇不使用ReLu,tanh肯定比sigmoid要多a better activation function。
謝謝!你能指導我一個資源,我可以在分類器中進一步閱讀tanh vs sigmoid嗎?我之前看到他們被描述爲極其可比。 –
@EvanWeissburg當然,強烈推薦這篇文章 - http://cs231n.github.io/neural-networks-1/#actfun – Maxim