0

我有128個功能地圖,大小爲32x32。我想將其上採樣/解卷積到8x256x256,其中8是特徵映射輸出的數量。我在CAFFE中使用Deconvolution圖層來完成任務。選擇權重初始化之間的初始損失(迭代= 0)有很大不同。爲什麼?

layer { 
    name: "Deconvolution1" 
    type: "Deconvolution" 
    bottom: "layer1" 
    top: "Deconvolution1" 
    param { 
    lr_mult: 1 
    decay_mult: 1 
    } 
    convolution_param { 
    num_output: 8 
    bias_term: false 
    pad: 0 
    kernel_size: 8 
    stride: 8 
    weight_filler { 
     type: "msra" 
    } 
    } 
} 

在我的設置,我用weight_filter是msra,因爲我從頭開始訓練的我的網絡。我也嘗試過其他過濾器,如gaussian std = 0.01。結果表明,初期損失大不相同。與msra,我的初始損失是6.5,而高斯是1.2。有什麼問題嗎?我的預期損失在最初小於2.謝謝所有

回答

1

最初的損失是無關緊要的。是的,差異隨機差價可以顯着改變它。我經常看到20%的差異,使用相同的初始過濾器在基準拓撲(vis.lexnet)。

問題是模型的訓練效果如何。如果你的損失在一個或兩個時期內下降到預期的範圍內,並且持續普遍的下降趨勢直到收斂,那麼你有一個可行的方法。