2017-04-11 27 views

回答

1

神經網絡的基本操作是將連接到輸出的輸入(矢量)與連接相連,有時還包括其他層(如上下文層)。這些連接被建模爲矩陣並且強度不同,我們稱這些爲重量矩陣

這意味着我們在向網絡饋送數據時唯一要做的事情是將矢量放入網絡中,將這些值與權重矩陣相乘並調用輸出。在特殊情況下,例如經常性網絡,我們甚至會將一些值保存在其他向量中,並將此存儲值與當前輸入結合起來。

在訓練過程中,我們不僅向網絡輸入數據,還計算了一個我們用聰明方式評估的誤差值,以便告訴我們應該如何改變加權矩陣(我們可以將我們的輸入相乘)復發層)。

因此:,當然基本的執行行爲不會改變爲復發層。我們只是不更新​​權重了。

有些層在執行期間的行爲有所不同,因爲它們被視爲regularisers,即使網絡訓練更有效的方法,在執行期間被認爲是不必要的。這些層的例子是NoiseBatchNormalization。幾乎所有的神經網絡層(包括經常性網絡層)都包括退出,這是另一種形式的正則化,它禁止層中的隨機連接百分比。這也僅在培訓期間完成。

+0

謝謝你澄清,我想我得到了隱藏狀態和相應的重量matricies混合起來。 –