2012-10-10 65 views
10

我在嘗試瞭解predict.loess函數如何能夠在原始數據中不存在的點x上計算新的預測值(y_hat)。例如(這是一個簡單的例子,我實現顯然是不需要這種的一個例子黃土,但它說明了這一點):通過在每個x使用多項式黃土用新的x值預測

x <- 1:10 
y <- x^2 
mdl <- loess(y ~ x) 
predict(mdl, 1.5) 
[1] 2.25 

loess迴歸作品,因​​此它創建一個在每個y預測y_hat。但是,因爲沒有存儲係數,所以在這種情況下的「模型」僅僅是用於預測每個y_hat的細節,例如,spandegree。當我做predict(mdl, 1.5)時,predict怎麼能在這個新的x產生一個值?是否插入兩個最接近的現有值x值及其關聯的y_hat?如果是這樣,那麼它背後的細節是什麼呢?

我已經在線閱讀cloess文檔,但無法找到它討論的地方。

+0

插值,外推還是兩者?我想你只是指內插。 – smci

回答

5

然而,因爲沒有被存儲的係數中,「模型」,在這種情況下,僅僅是被用來預測每個y_hat

也許什麼細節,你已經使用print(mdl)命令或者乾脆mdl看看型號mdl包含什麼,但事實並非如此。該模型非常複雜並且存儲大量參數。

要了解內部的內容,您可以使用unlist(mdl)並查看其中的大參數列表。

這是命令的手冊描述它如何工作的一部分:

配件是在本地完成。也就是說,對於點x處的擬合,擬合是使用x的鄰域中的點進行的,並由它們與x的距離進行加權(當計算距離時,'參數'變量的差異被忽略)。鄰域的大小由α控制(由span或enp.target設置)。對於α< 1,鄰域包括點的比例α,並且這些具有三次加權(與(1-(dist/maxdist)^ 3)^ 3)成比例。對於α> 1,使用所有點,假定「最大距離」爲p個解釋變量的實際最大距離的α^(1/p)乘以。

對於默認系列,擬合是通過(加權)最小二乘法。對於 家族=「對稱」的M估計過程的幾次迭代與 Tukey的biweight被使用。請注意,由於最初的數值是 最小二乘法擬合,所以這不需要非常適合。

我相信它試圖在每個點的鄰域中擬合一個多項式模型(而不僅僅是整個集合的單個多項式)。但是這個鄰域並不意味着只有一點之前和一點之後,如果我正在實現這樣的功能,我會對最靠近點x的點給予很大的權重,並且對遠端點的權重較低,並且試圖擬合一個多項式適合最高的總重量。

然後,如果給定x'的高度應該被預測爲最接近點x,我嘗試使用擬合在點x的鄰域上的多項式 - 比如P(x) - 並將其應用於x' - 說P(x') - 那就是預測。

讓我知道,如果你正在尋找任何特殊的東西。

+1

謝謝你的回答。然而,在我的問題中描述了多項式迴歸的邏輯/數學。我試圖瞭解如何計算中間點。它必須通過某種插值? – Alex

+0

我更新了答案 – Ali

+1

謝謝,是的,這正是我在問題中所描述的。請注意:「在x點適合,適合用x附近的點進行配合」。問題是:在x_1和x_2之間發生了什麼......例如,數據集中不存在的x_1 + epsilon – Alex

2

發現手冊的第42頁上的回答:

In this algorithm a set of points typically small in number is selected for direct  
computation using the loess fitting method and a surface is evaluated using an interpolation 
method that is based on blending functions. The space of the factors is divided into 
rectangular cells using an algorithm based on k-d trees. The loess fit is evaluated at 
the cell vertices and then blending functions do the interpolation. The output data 
structure stores the k-d trees and the fits at the vertices. This information 
is used by predict() to carry out the interpolation. 
+0

哪個手冊?我在試圖找到答案我希望看到混合函數 –

+0

我想你是在引用這個文檔:http://www.netlib.org/a/cloess.pdf它似乎是威廉S.克利夫蘭的論文或報告的附錄,Eric Grosse和Ming-Jen Shyu。雖然我不確定引用是因爲我沒有找到主要文檔,只是附錄。 –

5

爲了更好地理解什麼是在黃土配合試運行發生從TeachingDemos包loess.demo功能。這可讓您交互地點擊圖表(甚至在點之間),然後顯示預測中使用的點及其權重集以及該點的預測線/曲線。

請注意,loess的默認值是對黃土的擬合進行第二次平滑/插值,所以您在擬合對象中看到的可能不是真正的黃土擬合信息,而是二次平滑。