我正在dask構建一個非常大的DAG,以提交給分佈式調度程序,其中節點在數據框上運行,這些數據框本身可能非常大。一種模式是我有大約50-60個函數來加載數據並構建每個數百MB的熊貓數據框(並且邏輯上表示單個表的分區)。我想將它們連接成圖中下游節點的單個dask數據幀,同時最小化數據移動。我鏈接像這樣的任務: dfs = [dask.delayed(load_pandas)(i) for i in
這是一個後續問題,以回答我之前關於使用Dask計算到access one element in a large array的問題之一的可能答案。 爲什麼使用Dask計算會導致執行掛起? 這裏的工作代碼片段: #Suppose you created a scheduler at the ip address of 111.111.11.11:8786
from dask.distribute