0
當L1範數VS L2-範數成本函數我有一些數據,其中的輸入和輸出值是標準化的,所以Y和Y_pred之間的差總是要去非常小。標準化
我覺得L2-範數將懲罰更少的模型比L1範數,因爲平方一個數字,是0和1之間將總是導致較低數量。
所以我的問題是,當輸入和輸出都標準化時,使用l2範數可以嗎?
當L1範數VS L2-範數成本函數我有一些數據,其中的輸入和輸出值是標準化的,所以Y和Y_pred之間的差總是要去非常小。標準化
我覺得L2-範數將懲罰更少的模型比L1範數,因爲平方一個數字,是0和1之間將總是導致較低數量。
所以我的問題是,當輸入和輸出都標準化時,使用l2範數可以嗎?
沒關係。
基本想法/動機是如何懲罰偏差。 L1範數不關心異常值,而L2範數則嚴重懲罰這些異常值。這是基本的區別,你會發現很多優點和缺點,即使在維基百科上。
因此,在關於你的問題,如果它是有道理的,當預期的偏差較小:肯定的是,它的行爲是相同的。
讓我們做出了榜樣:
y_real 1.0 ||| y_pred 0.8 ||| y_pred 0.6
l1: |0.2| = 0.2 |0.4| = 0.4 => 2x times more error!
l2: 0.2^2 = 0.04 0.4^2 = 0.16 => 4x times more error!
你看,基本思路仍然適用!
感謝您的回覆。如果我們使用L2範數,那麼由於誤差較低,在梯度下降的每次迭代中,權重將只能非常輕微地被修正。那麼,它應該需要更多的訓練迭代才能收斂到最佳的權重no? –
這不僅僅是一個重量的梯度大小。這更多關於聯合梯度。在地方(只有這個重量)與全球(所有這些重量如何表現)環境中都有這種想法。更進一步:學習率調整總是重要的!所以一般的答案(還有很多需要談論的內容,但是討論這個問題太過複雜了;平滑和合作)是:它取決於問題。 – sascha