2013-06-20 18 views
0

我需要估算缺失的值。我的數據集有大約800,000行和92個變量。我在r中的插補包中嘗試了kNNImpute,但看起來像數據集太大了。 R中的任何其他包/方法?我不想用mean來替換缺失的值。 謝謝大量數據Imputation

+0

在CRAN上甚至有一個任務視圖用於插補:http://cran.r-project.org/web/views/OfficialStatistics.html但是可能你這個問題更適合於stats.exchange。 COM?也許你還應該解釋你的「數據集太大」的方式。 – Beasterfield

回答

4

1)你可以嘗試

library(sos) 
findFn("impute") 

這說明在113包400場比賽。這顯示了113個包中的400個匹配:您可以根據插補函數的要求縮小它的範圍。

2)您是否看到/嘗試Hmisc

描述:Hmisc庫包含用於數據 分析,高級圖形,實用的操作,用於計算樣本大小和功率,導入數據集, 插補缺失值,先進表制定職能 ,可變有用的許多功能 集羣,字符串操作,將對象轉換爲LaTeX代碼以及重新編碼變量。

3)可能mice

多重插補使用完全條件規範(FCS) 由MICE算法來實現。每個變量都有其自己的 插補模型。提供 連續數據(預測平均匹配,正常),二進制數據 (邏輯迴歸),無序分類數據(多態邏輯 迴歸)和有序分類數據(比例賠率)的內置插補模型。 MICE可以 也包含連續的兩級數據(正常模型,泛,二級 變量)。被動插補可以用來保持變量之間的一致性 。各種診斷圖可用來檢查 插值的質量。

1

MICE是一個很好的軟件包,具有強大的診斷工具,並且可能能夠在如此龐大的數據集中完成這項工作。

你應該知道的一件事:MICE是S-L-O-W。在這樣一個大數據集上工作,如果你打算使用MICE,我會強烈建議你使用計算雲 - 否則,你最好提前計劃自己的自我,因爲在800k x〜100的矩陣中,可能需要幾天後才能完成工作,具體取決於您如何指定模型。

MICE爲您提供了許多不同的插補方法,根據要推算的變量類型使用。最快的是預測平均匹配。 PMM最初是用來計算連續數據,但似乎pmm足夠靈活以適應其他類型的變量。看看這個Paul Allison的帖子和Stef van Buuren的回覆:http://statisticalhorizons.com/predictive-mean-matching

(我看到這是一個三年前的帖子,但我一直在使用MICE,並且被多麼強大 - 而且時常慢 - 它驚呆了可以!)