1
我想將機器學習應用於Kaggle.com數據集。我的數據集的維度是244768 x 34756.現在在這個大小沒有scikit算法的工作。機器學習 - 與大數據集的問題
我以爲我會應用PCA,但即使這不會擴大到這個數據集。
無論如何,我可以減少我的訓練數據集中的冗餘數據嗎?我可以通過應用PCA來減少維度,但是如果我能應用PCA。
由於我正在做文檔分類,我通過減少單詞向量大小來重新採樣我的數據集到244768 * 5672。即使是這個數據集也不能應用PCA。
我可以通過這種方法應用PCA嗎?假設我的矩陣是A - X = A.T * A pca(X)(X變爲5672 x 5672矩陣) 這會給我錯誤的答案嗎?
而且當我申請Logistic迴歸,我可以訓練模型遞增,.IE
如果A = 10000×500 我可以採取1000×500,對logistic.fit(A),然後執行相同的換其他行?這種訓練是否錯誤?
您是否試過[IncrementalPCA](http://scikit-learn.org/stable/modules/generated/sklearn.decomposition.IncrementalPCA.html#sklearn.decomposition.IncrementalPCA)? – EdChum 2015-04-02 20:44:59
您使用的是32位還是64位系統? 64位可能會有所幫助。 – pyan 2015-04-02 20:54:47
您是否可以在滑動窗口中讀取數據集並彙總結果? – postelrich 2015-04-02 21:10:24