如何做一個非常大的數據集的潛在語義分析

我想在一個非常大的數據集上運行LSA或主成分分析，大約50,000個文檔和超過300,000個詞/項，以減少維度，所以我可以繪製文檔在2 - d。如何做一個非常大的數據集的潛在語義分析

我嘗試過使用Python和MATLAB，但是由於數據集的體積，我的系統內存不足，崩潰。有誰知道我可以如何減少負載，或者做一些近似的LSA/PCA，它可以更快，更高效地運行？我的總體目標是大幅降低300k字以上的維度。

2012-08-30 genekogan

你可以看看Oja's rule。它定義了一個學習PCA的迭代過程。現在你只需要實現你不會從磁盤一次加載整個數據集，以防止超載你的內存。

2012-08-30 10:33:48 denahiro

回答