我操縱一個巨大的DataFrame存儲使用HDFStore對象,表太大,無法完全加載到內存中,所以我必須提取數據chunck大塊,這是很好爲了很多任務。處理大熊貓DataFrames不適合內存
這裏是我的問題,我想申請一個PCA在桌上需要整個DataFrame加載,但我沒有足夠的內存來做到這一點。
PCA function需要一個numpy數組或一個熊貓DataFrame作爲輸入,還有另一種方法來應用PCA,它可以直接使用存儲在磁盤上的對象嗎?
謝謝很多提前,
ClydeX
我操縱一個巨大的DataFrame存儲使用HDFStore對象,表太大,無法完全加載到內存中,所以我必須提取數據chunck大塊,這是很好爲了很多任務。處理大熊貓DataFrames不適合內存
這裏是我的問題,我想申請一個PCA在桌上需要整個DataFrame加載,但我沒有足夠的內存來做到這一點。
PCA function需要一個numpy數組或一個熊貓DataFrame作爲輸入,還有另一種方法來應用PCA,它可以直接使用存儲在磁盤上的對象嗎?
謝謝很多提前,
ClydeX
你可以只評估首先使用PCA數據的樣本,試圖做到這一點對這樣的數據量巨大,在這個階段,似乎不切實際的,因爲你基本上是進行功能評價 – EdChum
如果我使用一個樣本,輸出的準確性會降低,但如果我無法分析整個表格,它當然會成爲一個選項。 – ClydeX