處理大熊貓DataFrames不適合內存

我操縱一個巨大的DataFrame存儲使用HDFStore對象，表太大，無法完全加載到內存中，所以我必須提取數據chunck大塊，這是很好爲了很多任務。處理大熊貓DataFrames不適合內存

這裏是我的問題，我想申請一個PCA在桌上需要整個DataFrame加載，但我沒有足夠的內存來做到這一點。

PCA function需要一個numpy數組或一個熊貓DataFrame作爲輸入，還有另一種方法來應用PCA，它可以直接使用存儲在磁盤上的對象嗎？

謝謝很多提前，

ClydeX

2015-01-16 ClydeX

你可以只評估首先使用PCA數據的樣本，試圖做到這一點對這樣的數據量巨大，在這個階段，似乎不切實際的，因爲你基本上是進行功能評價 – EdChum

如果我使用一個樣本，輸出的準確性會降低，但如果我無法分析整個表格，它當然會成爲一個選項。 – ClydeX

好像在scikit學習的0.16 Dev分支完美契合新IncrementalPCA。

2015-01-16 16:21:11 elyase

事實上，我會嘗試partial_fit（X）與我的表的不同塊。謝謝！ – ClydeX

回答