我需要估算缺失的值。我的數據集有大約800,000行和92個變量。我在r中的插補包中嘗試了kNNImpute,但看起來像數據集太大了。 R中的任何其他包/方法?我不想用mean來替換缺失的值。 謝謝大量數據Imputation
回答
1)你可以嘗試
library(sos)
findFn("impute")
這說明在113包400場比賽。這顯示了113個包中的400個匹配:您可以根據插補函數的要求縮小它的範圍。
2)您是否看到/嘗試Hmisc?
描述:Hmisc庫包含用於數據 分析,高級圖形,實用的操作,用於計算樣本大小和功率,導入數據集, 插補缺失值,先進表制定職能 ,可變有用的許多功能 集羣,字符串操作,將對象轉換爲LaTeX代碼以及重新編碼變量。
3)可能mice
多重插補使用完全條件規範(FCS) 由MICE算法來實現。每個變量都有其自己的 插補模型。提供 連續數據(預測平均匹配,正常),二進制數據 (邏輯迴歸),無序分類數據(多態邏輯 迴歸)和有序分類數據(比例賠率)的內置插補模型。 MICE可以 也包含連續的兩級數據(正常模型,泛,二級 變量)。被動插補可以用來保持變量之間的一致性 。各種診斷圖可用來檢查 插值的質量。
MICE是一個很好的軟件包,具有強大的診斷工具,並且可能能夠在如此龐大的數據集中完成這項工作。
你應該知道的一件事:MICE是S-L-O-W。在這樣一個大數據集上工作,如果你打算使用MICE,我會強烈建議你使用計算雲 - 否則,你最好提前計劃自己的自我,因爲在800k x〜100的矩陣中,可能需要幾天後才能完成工作,具體取決於您如何指定模型。
MICE爲您提供了許多不同的插補方法,根據要推算的變量類型使用。最快的是預測平均匹配。 PMM最初是用來計算連續數據,但似乎pmm足夠靈活以適應其他類型的變量。看看這個Paul Allison的帖子和Stef van Buuren的回覆:http://statisticalhorizons.com/predictive-mean-matching
(我看到這是一個三年前的帖子,但我一直在使用MICE,並且被多麼強大 - 而且時常慢 - 它驚呆了可以!)
- 1. 大數據量
- 2. 大量數據庫
- 3. APC用戶高速緩存大數據量,數據量小而數據量少,數據量巨大
- 4. WP7數據存儲 - 大量數據
- 5. 核心數據導入大量數據
- 6. MySql數據庫的大量數據
- 7. 大量數據的數據庫?
- 8. 調整大量數據幀
- 9. 處理大量數據
- 10. WebSockets vs XHR大數據量
- 11. 加載大量數據
- 12. MongoDB - 大量的數據庫
- 13. MongoDB返回大量數據
- 14. 如何在大數據量
- 15. SQL刪除大量數據
- 16. WCF發送大量數據
- 17. 大量的數據圖示
- 18. 處理大量數據?
- 19. 存儲大量數據點?
- 20. 使用大量數據
- 21. 存儲大量數據
- 22. WCF和大量的數據
- 23. 了大量的數據
- 24. c# - 處理大量數據
- 25. Python:PyPlot大量數據點
- 26. 正火大量數據庫
- 27. XML分析大量數據
- 28. NSMutableURLRequest:發佈大量數據
- 29. 發送大量POST數據
- 30. 導出大量的數據
在CRAN上甚至有一個任務視圖用於插補:http://cran.r-project.org/web/views/OfficialStatistics.html但是可能你這個問題更適合於stats.exchange。 COM?也許你還應該解釋你的「數據集太大」的方式。 – Beasterfield