我知道二元交叉熵與兩類中的分類交叉熵相同。二元交叉熵懲罰單熱矢量的所有分量
此外,我很清楚softmax是什麼。
因此,我看到明確的交叉熵懲罰只是將一個部件(概率)應爲1。
但爲什麼,不能或不應我使用二進制交叉熵上一熱載體?
Normal Case for 1-Label-Multiclass-Mutual-exclusivity-classification:
################
pred = [0.1 0.3 0.2 0.4]
label (one hot) = [0 1 0 0]
costfunction: categorical crossentropy
= sum(label * -log(pred)) //just consider the 1-label
= 0.523
Why not that?
################
pred = [0.1 0.3 0.2 0.4]
label (one hot) = [0 1 0 0]
costfunction: binary crossentropy
= sum(- label * log(pred) - (1 - label) * log(1 - pred))
= 1*-log(0.3)-log(1-0.1)-log(1-0.2)-log(1-0.4)
= 0.887
我看到,在二進制交叉熵的零是一個目標類,並對應於以下一個熱碼:
target class zero 0 -> [1 0]
target class one 1 -> [0 1]
總結:爲什麼我們纔算/總結預測類別的負對數可能性。我們爲什麼不懲罰其他的應該不是那種班級?
如果一個人使用二元交叉熵到一個熱點的向量。預計零標籤的可能性也將受到懲罰。