2017-04-07 97 views
0

林在蔚藍的機器學習線性迴歸玩和評價模型。評估線性迴歸(在Microsoft機器學習

林還是有點不確定什麼評價各指標的含義和演出,所以希望得到一些修正,如果我是不正確

  1. 平均絕對誤差:。平均殘差(錯誤)
  2. 均方根誤差:標準偏差殘差有了這個,我可以看到如何發。從平均值/中位數我的絕對誤差是。
  3. 相對絕對誤差:顯示相對誤差和絕對誤差之間百分比差異的百分比值。值越低越好,表明差異較小。
  4. 相對平方誤差:平方誤差相對於絕對平方。不確定這是什麼給我的相對絕對誤差。
  5. 確定係數:表示輸入之間的相關性。 +1或-1表示完美關聯,0表示無。
  6. 直方圖顯示了各種誤差幅度的桶的頻率。這顯示了很多小錯誤。隨着誤差值增加頻率降低,表明,如果考慮到上面差的指標,可能有一些sku或異常值對模型有很大的影響,使得它不太準確。

這些定義和假設是否正確?

enter image description here

回答

1

你在最點幾乎是正確的。爲了確保我們在相同的條件講,背景一點點:

的線性迴歸使用上的一些結果變量y和自變量x1, x2, ..數據,並試圖找到x1, x2, ..線性組合最能預測y。一旦建立了「最佳線性組合」,您就可以通過多種方式評估擬合的質量(即模型的質量)。你提到的六點都是迴歸方程質量的關鍵指標。

運行迴歸可爲您提供多種「成分」。例如,對於結果變量,每個觀察結果都會得到一個預測值。觀測值y與預測值之間的差異稱爲殘差或誤差。殘差可能爲負數(如果y被高估)和正數(如果低估了y)。殘差越接近零,效果越好。但是,什麼是「接近」?您提供的指標應該能夠提供一個洞察力。

  • 平均絕對誤差:採用殘差的絕對值並充分利用了平均。
  • 均方根誤差:是殘差的標準差。這將幫助你看到,傳播是多大的殘留。殘差平方,因此高殘差將計入多餘的小殘差中。低RMSE是好的。
  • 相對絕對誤差:絕對誤差作爲結果變量y的實際值的一部分。在你的情況下,預測平均比實際值y高出/低於75%。

  • 相對平方誤差:平方誤差(residual^2)作爲實際值的一部分。

  • 確定係數:幾乎正確。這個範圍在0到1之間,可以解釋爲解釋y中自變量的解釋能力。事實上,在你的情況下,自變量可以模擬y中38,15%的變化。另外,如果你只有一個獨立變量,這個係數就等於平方相關係數。

均方根誤差和確定係數是幾乎所有情況下最重要的指標。說實話,我從來沒有真正看到其他指標的報道。

+1

感謝您的回覆。這有助於清理我腦海中的某些事情。 當評估模型是真正有用的信息時,通常會使用advic ethat RMSE和決定係數。 –