2017-10-06 73 views

回答

1

一般來說,在softmax輸出層之前附加的sigmoid激活沒有意義。由於sigmoid函數爲a partial case of softmax,因此它將連續兩次擠壓值爲[0, 1]的區間,這將產生幾乎一致的輸出分佈。當然,你可以通過這個傳播,但效率會低得多。順便說一下,如果你選擇不使用ReLu,tanh肯定比sigmoid要多a better activation function

+0

謝謝!你能指導我一個資源,我可以在分類器中進一步閱讀tanh vs sigmoid嗎?我之前看到他們被描述爲極其可比。 –

+0

@EvanWeissburg當然,強烈推薦這篇文章 - http://cs231n.github.io/neural-networks-1/#actfun – Maxim