對這個問題的啓發:爲什麼深度學習不會遇到浮點或數值精度錯誤,如果其大部分訓練都是在平均值0和標準差1的數據上?
Why do different methods for solving Xc=y in python give different solution when they should not?
,似乎有數值的問題,由於浮動點,反轉矩陣和限制值[-1,1]
,我很好奇,現在爲什麼不深的學習不是來自浮遭受或如果大多數訓練數據的平均值爲0和標準差1(假設我假定大部分數據已經被預處理到該範圍內,再加上我認爲這應該基本正確批量標準化的高使用率)。是因爲深度學習不是通過高度提高多項式來進行訓練,或者爲什麼深度學習通常很好?是否有一些特殊的SGD或者(流行)激活函數relu,elu等不是數值不穩定的(與高次多項式相比)?或者,也許GPU培訓一起避免浮點表示?或者爲什麼深度學習訓練在數值上穩定?