2015-04-30 48 views
0

我有一個記錄,包含特定站點的最高和最低月溫度。該記錄顯示了從1908年1月到2012年3月每個月的信息。但是,一些溫度值已被刪除。哪種模型最適合半正弦數據?

Sample Data  
    yyyy month tmax tmin 
    1908 January 5.0 -1.4 
    1908 February 7.3 1.9 
    1908 March 6.2 0.3 
    1908 April Missing_1 2.1 
    1908 May Missing_2 7.7 
    1908 June 17.7 8.7 
    1908 July Missing_3 11.0 
    1908 August 17.5 9.7 
    1908 September 16.3 8.4 
    1908 October 14.6 8.0 
    1908 November 9.6 3.4 
    1908 December 5.8 Missing_4 
    1909 January 5.0 0.1 
    1909 February 5.5 -0.3 
    1909 March 5.6 -0.3 
    1909 April 12.2 3.3 
    1909 May 14.7 4.8 
    1909 June 15.0 7.5 
    1909 July 17.3 10.8 
    1909 August 18.8 10.7 

我想找出缺失的值。哪種模式最適合這類問題?我在這裏嘗試使用多變量線性迴歸。這是一個正確的方法嗎?

+0

這裏有很多選擇。基本上,每種不同的歸責方法對應於關於連續值如何相關的不同假設。最好對這些關係作出明確的假設,並從中推導出方法;那將是貝葉斯推斷方法。除此之外,可能局部迴歸方法如LOWESS和高斯過程迴歸都是合適的。 GP迴歸實際上非常簡單,可以爲每個值以及點估計產生不確定性。網絡搜索任何這些條款應該會出現很多點擊。 –

回答

0

這是一個經驗問題。線性迴歸是一個很好的起點。如果數據具有非線性形狀,則可能會發現變換特徵/輸出允許您擬合線性模型。

我建議你想出一些東西,並對具有當前值的條目使用交叉驗證。用這個來改進你的方法。如果假設缺失值與現值具有相同的分佈是合理的(即沒有系統偏差,如極端溫度下的設備故障,缺失值),那麼交叉驗證錯誤應該是一種合理的判斷方式缺少數據插補的質量。

相關問題