非常大的數據中的R

集做PCA我有一個CSV文件非常大的訓練集（〜2GB）。該文件是太大直接讀入內存（read.csv()帶來的計算機停頓），我想，以減少使用PCA數據文件的大小。問題在於（據我所知），我需要將文件讀入內存才能運行PCA算法（例如，princomp()）。非常大的數據中的R

我曾嘗試bigmemory包讀取文件中的big.matrix，但princomp不會對big.matrix對象功能，它似乎並不像big.matrix可以轉換成有點像data.frame。

在我錯過的大型數據文件上有沒有對princomp運行的方法？

我在R2上的相對新手，所以一些，這可能是顯而易見的經驗更豐富的用戶（在AVANCE道歉）。

感謝任何信息。

2012-09-15 user141146

基本上你需要做的PCA沒有估計樣本協方差矩陣。有關高維PCA的大量文獻，特別是在圖像處理和金融市場的應用方面。但是，這很可能不是一件微不足道的事情。 – John

該文件包含多少個觀測值和多少個變量？ – rolando2

@ rolando2它包含大約50K行和大約10000列 – user141146

我解決的方式是通過迭代地計算所述樣本協方差矩陣。通過這種方式，您只需要任何時間點的數據子集。可以使用readLines完成只讀數據子集的讀取，您可以在其中打開文件連接並迭代讀取。該算法看起來像（這是一個兩步的算法）：

計算每列的平均值（假設是變量）

計算的協方差矩陣：

當你擁有的協方差矩陣，只需要調用princomp與covmat = your_covmat和princomp將跳過calulating協方差矩陣自己。

這樣您可以處理數據集是多少，比你的可用RAM大得多。在迭代過程中，內存使用量大致是塊需要的內存（例如，1000行），之後內存使用被限制爲協方差矩陣（nvar * nvar雙倍）。

2012-10-01 10:09:34

也許有一種方法不將所有的協方差矩陣存儲在內存中？ – mrgloom

如果你有一個新的問題，請創建一個新的問題，也許是指這個問題。 –

導入大型數據集時需要注意的事項。

我希望它能幫助

2018-01-05 18:10:16

回答