集做PCA我有一個CSV文件非常大的訓練集(〜2GB)。該文件是太大直接讀入內存(read.csv()
帶來的計算機停頓),我想,以減少使用PCA數據文件的大小。問題在於(據我所知),我需要將文件讀入內存才能運行PCA算法(例如,princomp()
)。非常大的數據中的R
我曾嘗試bigmemory
包讀取文件中的big.matrix
,但princomp
不會對big.matrix
對象功能,它似乎並不像big.matrix
可以轉換成有點像data.frame
。
在我錯過的大型數據文件上有沒有對princomp
運行的方法?
我在R2上的相對新手,所以一些,這可能是顯而易見的經驗更豐富的用戶(在AVANCE道歉)。
感謝任何信息。
基本上你需要做的PCA沒有估計樣本協方差矩陣。有關高維PCA的大量文獻,特別是在圖像處理和金融市場的應用方面。但是,這很可能不是一件微不足道的事情。 – John
該文件包含多少個觀測值和多少個變量? – rolando2
@ rolando2它包含大約50K行和大約10000列 – user141146