我正在用R進行文本分類任務,並且我獲得了大小爲22490乘以120,000(僅400萬個非零條目,小於1%條目)的文檔項矩陣。現在我想通過使用PCA(主成分分析)來降低維度。不幸的是,R無法處理這個巨大的矩陣,所以我把這個稀疏矩陣存儲在一個文件中的「矩陣市場格式」,希望使用一些其他技術來做PCA。因此,任何人都可以給我一些有用的庫的提示(無論編程語言如何),它可以輕鬆地用這個大型矩陣做PCA,或者自己做一個longhand PCA,換句話說,計算首先計算協方差矩陣,然後計算協方差矩陣的特徵向量和特徵向量,即。在非常大的稀疏矩陣上應用PCA
我想是計算所有的PC(120,000),並且只選擇前N個電腦,誰佔了90%的變異。顯然,在這種情況下,我必須先給出一個閾值,以便將一些非常小的方差值設置爲0(在協方差矩陣中),否則協方差矩陣將不會稀疏並且其大小將爲120,000乘以120,000,即單臺機器無法處理。另外,加載(特徵向量)將會非常大,並且應該以稀疏格式存儲。
非常感謝您的幫助!
注意:我使用的機器有24GB RAM和8個cpu核心。
我不確定它是否100%正確,但我認爲MatLab可以完成這項工作。 – Anton
如果你在這裏沒有得到任何喜悅,可能值得在http://stats.stackexchange.com/ – NPE
@aix上提問。感謝您的建議,我已將它移至計算科學測試版,並獲得一些有用的信息提示。你也可以按照這個[URL](http://scicomp.stackexchange.com/questions/2313/apply-pca-on-very-large-sparse-matrix) –