0

我正在讀「統計學習入門」一書。該書說:錯誤用語的含義e

更一般地,假設我們觀察到一個定量響應Y和一組預測變量X1,X2,... Xn。

我們假設有Y和X之間的一些關係(X1,X2,... XN),其可在非常一般的形式被寫爲:

Y = F(X)+ E

這裏,f是X的一些固定但未知的函數,e是一個隨機誤差項,它與X無關並且具有平均值零。

我想知道零意味着什麼意思?

+1

似乎e基本上是噪音(例如在測量中),所以當觀測數趨於非常大/趨向無窮時,e將平均爲零。 – StuartLC

回答

1

我想知道零意味着什麼意思?

這意味着,e,作爲隨機變量處理已預期值0。換句話說,如果你計算這些誤差的平均值,然後與樣品組生長到無窮大 - 它會收斂到零。

從更實際的角度來看,它只是意味着你的噪音不會改變你的f(x)函數,但是如果你觀察到一些「正」噪音,那麼觀察到「負」噪音的概率也是完全相同強度。請注意,如果你有e均值爲m,這將意味着

E[f(x) + e] = E[f(x)] + E[e] = E[f(x)] + m 

從而爲每一個「X」點,你會期望觀察值f(X)+ M,而不是僅僅F(X)。因此,這將是一樣的造型

g(x) + e' 

其中

g(x) = f(x) + m 

e'現在是零均值隨機噪聲。因此,整個統計設置對於非零平均噪聲仍然有效,但是您的任務(ML正在求解)不是模型化「f」而是「g」。

0

我們假設說明你的錯誤是正態分佈的,因爲在介紹性設置中我們經常做出這個假設。如果你願意接受這一點,那麼另一種關於零均值誤差的思考方式就是說你的結果變量Y本身就是一個隨機變量,分佈如N(f(X),sigma^2)。換句話說,結果就像是以f(X)爲中心的一些概率分佈的隨機抽取。請注意,如果您觀察到的每個Y都有不同的X,那麼您會看到f(X)的值會發生變化,因此生成每個觀察結果Y的正態分佈也會發生變化。然而,所有的觀察結果都通過該基本規則(f)關於如何將特徵(即X數據)分配給產生結果的分佈。