0
我有128個功能地圖,大小爲32x32。我想將其上採樣/解卷積到8x256x256,其中8
是特徵映射輸出的數量。我在CAFFE中使用Deconvolution
圖層來完成任務。選擇權重初始化之間的初始損失(迭代= 0)有很大不同。爲什麼?
layer {
name: "Deconvolution1"
type: "Deconvolution"
bottom: "layer1"
top: "Deconvolution1"
param {
lr_mult: 1
decay_mult: 1
}
convolution_param {
num_output: 8
bias_term: false
pad: 0
kernel_size: 8
stride: 8
weight_filler {
type: "msra"
}
}
}
在我的設置,我用weight_filter是msra
,因爲我從頭開始訓練的我的網絡。我也嘗試過其他過濾器,如gaussian
std = 0.01。結果表明,初期損失大不相同。與msra
,我的初始損失是6.5,而高斯是1.2。有什麼問題嗎?我的預期損失在最初小於2.謝謝所有