0

我想在一個非常大的數據集上運行LSA或主成分分析,大約50,000個文檔和超過300,000個詞/項,以減少維度,所以我可以繪製文檔在2 - d。如何做一個非常大的數據集的潛在語義分析

我嘗試過使用Python和MATLAB,但是由於數據集的體積,我的系統內存不足,崩潰。有誰知道我可以如何減少負載,或者做一些近似的LSA/PCA,它可以更快,更高效地運行?我的總體目標是大幅降低300k字以上的維度。

回答

0

你可以看看Oja's rule。它定義了一個學習PCA的迭代過程。現在你只需要實現你不會從磁盤一次加載整個數據集,以防止超載你的內存。

相關問題