爲什麼我們使用RMSE而不是平均殘差作爲模型的評估標準？

通常，我們使用RMSE來評估模型的性能。我很好奇我們爲什麼使用平均殘差代替RMSE？爲什麼我們使用RMSE而不是平均殘差作爲模型的評估標準？

RMSE的定義： $\sqrt{\frac{1}{n}\sum{\left(\hat{Y}_{i}-Y_{i}\right)}^{2}}$

這裏提到的平均殘留是： $\frac{1}{n}\sum{(\hat{Y}_{i}-Y_{i})}$

例如：

我們有三個樣品：0 1 2

的這些樣品的預測值是：0 2 10

所以平均剩餘爲 $\frac{(0-0)+(2-1)+(10-2)}{3}=3$

的RMSE是 $\sqrt{\frac{{(0-0)}^{2}+{(2-1)}^{2}+{(10-2)}^{2}}{3}}\approx4.65$

有啥這兩個值之間的差異？

（I將指RMSE和「平均殘餘」爲損失函數）

注意您爲「平均殘餘的」表達可具有正，零和負值，並且它是不限於波紋管。這不是損失函數的一個好的屬性，它應該有一個對應於其最優值的下限（通常爲零）。如果你試圖儘量減少這個函數，你實際上正在訓練你的模型以儘可能低估（你正在訓練你的預測儘可能小而負面，這樣損失函數將會很小）。在你的例子中，即使預測是非常錯誤的，預測值-1000，-1000，-1000也會產生出色的（即小的）損失函數值。此外，即使您有巨大的錯誤，由於錯誤平均爲零，您也可能會得到零損失值。
也許你正在考慮在「平均殘差」函數中使用絕對值（對於總和中的每個項）。這實際上是一種可以使用的損失函數，稱爲L1損失但它至少有以下兩個缺點： A）它具有不太好的分析性能。例如，當使用線性模型進行迴歸時，RMSE準則是完全可解的（即存在使損失最小化的模型參數的簡單公式），但是L1損失不是。 B）梯度是分段常數（想想絕對值函數的導數）。這意味着如果使用基於漸變的方法執行優化，那麼接近最佳值的參數值會獲得與距最佳值更遠的值相同的梯度，而不是您所期望的那樣，那麼較大的錯誤將得到較大的更正。

2017-05-06 13:46:17 Lior

是的，平均殘差應該使用絕對值。感謝您的回答，我明白了^ _ ^ –

RMSE除了是一個凸函數外，還與高斯分佈很好地結合在一起，因爲RMSE與Normal有一個類似的表達式。

正態分佈很好地研究並自然發生在自然科學中發現的各種隨機過程中。將錯誤等同於正態分佈的擴展在許多情況下是有用的，例如，對數似然（https://www.statlect.com/fundamentals-of-statistics/normal-distribution-maximum-likelihood），對數後驗（http://www.utstat.toronto.edu/~rsalakhu/sta4273/notes/Lecture2.pdf看證據近似幻燈片）優化等。

2017-05-07 11:51:37

回答