大量數據Imputation

我需要估算缺失的值。我的數據集有大約800,000行和92個變量。我在r中的插補包中嘗試了kNNImpute，但看起來像數據集太大了。 R中的任何其他包/方法？我不想用mean來替換缺失的值。謝謝大量數據Imputation

2013-06-20 Vivek Simkhada

在CRAN上甚至有一個任務視圖用於插補：http://cran.r-project.org/web/views/OfficialStatistics.html但是可能你這個問題更適合於stats.exchange。 COM？也許你還應該解釋你的「數據集太大」的方式。 – Beasterfield

1）你可以嘗試

library(sos) 
findFn("impute")

這說明在113包400場比賽。這顯示了113個包中的400個匹配：您可以根據插補函數的要求縮小它的範圍。

2）您是否看到/嘗試Hmisc？

描述：Hmisc庫包含用於數據分析，高級圖形，實用的操作，用於計算樣本大小和功率，導入數據集，插補缺失值，先進表制定職能，可變有用的許多功能集羣，字符串操作，將對象轉換爲LaTeX代碼以及重新編碼變量。

3）可能mice

多重插補使用完全條件規範（FCS）由MICE算法來實現。每個變量都有其自己的插補模型。提供連續數據（預測平均匹配，正常），二進制數據（邏輯迴歸），無序分類數據（多態邏輯迴歸）和有序分類數據（比例賠率）的內置插補模型。 MICE可以也包含連續的兩級數據（正常模型，泛，二級變量）。被動插補可以用來保持變量之間的一致性。各種診斷圖可用來檢查插值的質量。

來源

2013-06-20 14:21:48

MICE是一個很好的軟件包，具有強大的診斷工具，並且可能能夠在如此龐大的數據集中完成這項工作。

你應該知道的一件事：MICE是S-L-O-W。在這樣一個大數據集上工作，如果你打算使用MICE，我會強烈建議你使用計算雲 - 否則，你最好提前計劃自己的自我，因爲在800k x〜100的矩陣中，可能需要幾天後才能完成工作，具體取決於您如何指定模型。

MICE爲您提供了許多不同的插補方法，根據要推算的變量類型使用。最快的是預測平均匹配。 PMM最初是用來計算連續數據，但似乎pmm足夠靈活以適應其他類型的變量。看看這個Paul Allison的帖子和Stef van Buuren的回覆：http://statisticalhorizons.com/predictive-mean-matching

（我看到這是一個三年前的帖子，但我一直在使用MICE，並且被多麼強大 - 而且時常慢 - 它驚呆了可以！）

來源

2016-08-28 07:16:51 FabF

大量數據Imputation

回答

相關問題