map_partitions在做什麼？

dask API表示，map_partition可用於「在每個DataFrame分區上應用Python函數」。根據這個描述並根據「map」的通常行爲，我預計map_partitions的返回值將是（類似於）其長度等於分區數量的列表。列表中的每個元素都應該是函數調用的返回值之一。map_partitions在做什麼？

然而，相對於下面的代碼，我不知道，什麼返回值取決於：

#generate example dataframe 
pdf = pd.DataFrame(np.random.randint(0,100,size=(100, 4)), columns=list('ABCD')) 
ddf = dd.from_pandas(pdf, npartitions=3) 

#define helper function for map. VAL is the return value 
VAL = pd.Series({'A': 1}) 
#VAL = pd.DataFrame({'A': [1]}) #other return values used in this example 
#VAL = None 
#VAL = 1 
def helper(x): 
    print('function called\n') 
    return VAL 

#check result 
out = ddf.map_partitions(helper).compute() 
print(len(out))

VAL = pd.Series({'A': 1})原因4次函數調用（可能是一個推斷D型和3對分區）和一個帶有len == 3和類型pd.Series的輸出。
pd.DataFrame({'A': [1]})導致相同的數字，但結果類型是pd.DataFrame。
VAL = None會導致TypeError ...爲什麼？不可能使用map_partitions去做東西而不是返回東西？
VAL = 1僅導致2個函數調用。 map_partitions的結果是整數1

因此，我想問幾個問題：

如何確定map_partitions的返回值？
什麼影響除了分區數量之外的函數調用次數/什麼標準有一個函數可以滿足每個分區調用一次？
什麼應該是一個函數的返回值，只有「做」了某些事情，即一個過程？
函數應該如何設計，返回任意對象？

來源

2016-08-29 Arco Bast

Dask DataFrame.map_partitions函數根據映射函數的輸出類型返回一個新的Dask Dataframe或Series。有關詳細說明，請參閱API documentation。

map_partitions的返回值是如何確定的？

查看上面提到的API文檔。
除了分區數量之外，什麼影響函數調用次數/什麼標準有一個函數可以在每個分區中調用一次？

你是對的，我們馬上調用它來猜測輸出的dtype/columns。您可以通過直接指定meta=關鍵字來避免此情況。除此之外，該功能每個分區被調用一次。
什麼應該是一個函數的返回值，只有「做」某事，即一個過程？

你總是可以返回一個空的數據框。您可能還需要考慮將數據幀轉換爲dask.delayed對象序列，這些對象通常更常用於臨時計算。
函數應該如何設計，返回任意對象？

如果你的函數沒有返回序列/數據幀，那麼我建議用DataFrame.to_delayed方法將你的數據幀轉換爲dask.delayed對象序列。

來源

2016-08-30 12:26:27 MRocklin

謝謝，尤其是對於在描述的情況下使用dask.delayed的提示。但是爲什麼在VAL = 1的情況下我只能得到2個函數調用？ –

我可以問你[提出問題]（https://github.com/dask/dask/issues/new） – MRocklin

https://github.com/dask/dask/issues/1518 –

map_partitions在做什麼？

回答

相關問題