2017-03-17 66 views
3

我有一個由隨機大小的分區組成的延遲函數創建的dask數據框。我想重新分區的數據塊大小(約)10000.如何將數據幀重新分區爲固定大小的分區?

我可以計算正確的分區數與np.ceil(df.size/10000),但似乎馬上計算結果?

IIUC計算結果它將不得不將所有數據幀讀入內存,效率非常低。相反,我想將整個操作指定爲一個dask圖以提交給分佈式調度程序,因此不應該在本地進行計算。

有沒有辦法指定npartitions而不立即計算所有基礎的延遲函數?

回答

3

簡答題可能是「不,沒有辦法做到這一點,沒有看數據」。這裏的原因是圖的結構取決於懶惰分區的值。例如,根據您的總體數據大小,圖表中的節點數量會有所不同。