我不熟悉深度學習,所以這可能是一個初學者的問題。 在我的理解中,多層感知器中的softmax函數負責每個類的規範化和分佈概率。 如果是這樣,爲什麼我們不使用簡單的標準化?爲什麼softmax功能必需?爲什麼不簡單歸一化?
比方說,我們得到一個向量x = (10 3 2 1)
應用softmax,輸出將是y = (0.9986 0.0009 0.0003 0.0001)
。
應用簡單歸一化(將每個元素除以sum(16)
) 輸出將爲y = (0.625 0.1875 0.125 0.166)
。
看起來簡單的標準化也可以分佈概率。 那麼,在輸出層上使用softmax函數有什麼優勢?