1
我有一個網絡如下我們可以通過使用PReLU使用BatchNorm來提高性能嗎?
BN-Scale-ReLU
我想PReLU更換RELU。那麼,這將是
BN-Scale-PReLU
我可以獲得任何增益與第二個設置?爲什麼?當我搜索時,第二種設置不是那麼受歡迎。在一些論文中,他們取代了BN-Scale-ReLU = PReLU。這樣對嗎?
我有一個網絡如下我們可以通過使用PReLU使用BatchNorm來提高性能嗎?
BN-Scale-ReLU
我想PReLU更換RELU。那麼,這將是
BN-Scale-PReLU
我可以獲得任何增益與第二個設置?爲什麼?當我搜索時,第二種設置不是那麼受歡迎。在一些論文中,他們取代了BN-Scale-ReLU = PReLU。這樣對嗎?
有一篇論文評估這些選擇,可以在這裏找到:https://arxiv.org/pdf/1606.02228.pdf。他們通過使用PReLU確實獲得了更高的準確性,但這是非常小的。我不確定這種改進是否抵消了使用PReLU而不是使用ReLU所需要做的更高工作量。問題是你是否已經評估了最後一個百分點的準確性?如果不是這樣,那麼選擇只會對模型的性能產生輕微的影響。
你看過縮放的expoential線性單位「SeLU」嗎? https://arxiv.org/abs/1706.02515。看起來PReLU是在BN之前推出的,當BN開始流行時,PReLU是多餘的 – Shai
哦。這是非常新的一個。感謝您的建議。對於第二點,你的意思是BN-Scale-PReLU應該是PReLU。這樣對嗎? – user8264