dask-delayed

    0熱度

    1回答

    當使用delayed創建計算圖時,我試圖指定名稱,以便如果我將圖形可視化,則它是可讀的。但是,對於依賴函數的延遲變量,參數name似乎不影響密鑰。這裏有一個玩具例子: def calc_avg(a, b): return pd.concat([a, b], axis=1).mean(axis=1) def calc_ratio(a, b): return a/b a =

    2熱度

    1回答

    我正在dask構建一個非常大的DAG,以提交給分佈式調度程序,其中節點在數據框上運行,這些數據框本身可能非常大。一種模式是我有大約50-60個函數來加載數據並構建每個數百MB的熊貓數據框(並且邏輯上表示單個表的分區)。我想將它們連接成圖中下游節點的單個dask數據幀,同時最小化數據移動。我鏈接像這樣的任務: dfs = [dask.delayed(load_pandas)(i) for i in

    0熱度

    1回答

    這是一個後續問題,以回答我之前關於使用Dask計算到access one element in a large array的問題之一的可能答案。 爲什麼使用Dask計算會導致執行掛起? 這裏的工作代碼片段: #Suppose you created a scheduler at the ip address of 111.111.11.11:8786 from dask.distribute

    0熱度

    2回答

    dask.compute(...)預計是阻止呼叫。但是,當我嵌套dask.compute,並且內部一個I/O(如dask.dataframe.read_parquet)時,內部dask.compute不會阻塞。下面是一個僞代碼示例:如果我開始2名工人8個處理每個像 import dask, distributed def outer_func(name): files = find_