2015-06-02 48 views
-1

我正在研究數據挖掘和知識發現的大學任務。最後的觀察結果進一步推進了熱點插補

的問題是如下:在孔

填充使用「最後一次觀察結轉熱卡插補」

TEMP       SPOTS     AGE     診斷
103.0      是     麻疹
94.7        是     不麻疹
100.1      是      -2    麻疹
102.0      沒有   沒有麻疹
96.5        沒有     ?    沒有麻疹
97.2        是     沒有麻疹
104.5      沒有     沒有麻疹
101.9      ?      麻疹
?        是     麻疹
99.8        是     麻疹

我在互聯網上搜索,發現LOCF熱卡插補是兩個不同的我以處理缺失的數據。但問題是要求將兩者結合起來。

有什麼特殊的情況下,以填補使用這兩種方法的數據。

這是我在維基百科上找到:

一個熱卡插補的形式被稱爲「最後一次觀察結轉」,其中涉及根據任意數量的變量排序的數據集,從而創造一個有序的數據集。然後,該技術找到第一個缺失值,並使用缺失數據之前的單元值來計算缺失值。對於缺失值的下一個單元重複該過程,直到估算出所有缺失值。在常見情況下,案例是對一個人或其他實體重複測量一個變量,這代表了一種觀點,即如果缺少一個測量值,最好的猜測是它沒有從最後一次測量值改變。

我沒有得到它了。同時這將如何與現貨屬性工作,因爲它具有價值Yes或No.

+0

「但問題是問這樣的作爲兩者的結合。」這是什麼意思? –

+0

我不知道。我搜索互聯網上,發現這兩個是不同的方法和問題是這樣的:在使用「最後一次觀察結轉熱卡插補」 –

+0

有中,我們可以應用這兩種方法來尋找失蹤的任何特殊情況下,孔填充值@AmiTavory –

回答

0

基本上,這個方法去當一個屬性丟失,那種所有其他行,弘揚具有此屬性的最後一個。所以說,如果我們缺少

96.5否?沒有麻疹

那麼我們的排序(可能使用一些武斷的決定,例如,其溫度比斑點更項重要的,和「no」 <「是的),並獲得了一個前就是

94.7是1不麻疹

(注意,排序不同的決定會產生不同的結果)。因此,我們填補了年齡爲1

等等

+0

我用這種方法得到這個表:


溫度景點年齡
94.7是1
96.5否?
97.2是30
99.8是4
100.1是-2
101.9? 7
102.0否20
103.0是6
?是8
104.5否2400

是不是?
並根據此點值應該是和臨時值應該是103.0 –

+0

我不知道我的評論顯示的HTML代碼也。
這裏的異常值是2400,噪聲值是-2。我對嗎? @Ami Tavory –