3
我有一個由隨機大小的分區組成的延遲函數創建的dask數據框。我想重新分區的數據塊大小(約)10000.如何將數據幀重新分區爲固定大小的分區?
我可以計算正確的分區數與np.ceil(df.size/10000)
,但似乎馬上計算結果?
IIUC計算結果它將不得不將所有數據幀讀入內存,效率非常低。相反,我想將整個操作指定爲一個dask圖以提交給分佈式調度程序,因此不應該在本地進行計算。
有沒有辦法指定npartitions
而不立即計算所有基礎的延遲函數?