dask API表示,map_partition可用於「在每個DataFrame分區上應用Python函數」。根據這個描述並根據「map」的通常行爲,我預計map_partitions的返回值將是(類似於)其長度等於分區數量的列表。列表中的每個元素都應該是函數調用的返回值之一。map_partitions在做什麼?
然而,相對於下面的代碼,我不知道,什麼返回值取決於:
#generate example dataframe
pdf = pd.DataFrame(np.random.randint(0,100,size=(100, 4)), columns=list('ABCD'))
ddf = dd.from_pandas(pdf, npartitions=3)
#define helper function for map. VAL is the return value
VAL = pd.Series({'A': 1})
#VAL = pd.DataFrame({'A': [1]}) #other return values used in this example
#VAL = None
#VAL = 1
def helper(x):
print('function called\n')
return VAL
#check result
out = ddf.map_partitions(helper).compute()
print(len(out))
VAL = pd.Series({'A': 1})
原因4次函數調用(可能是一個推斷D型和3對分區)和一個帶有len == 3和類型pd.Series的輸出。pd.DataFrame({'A': [1]})
導致相同的數字,但結果類型是pd.DataFrame。VAL = None
會導致TypeError ...爲什麼?不可能使用map_partitions去做東西而不是返回東西?VAL = 1
僅導致2個函數調用。 map_partitions的結果是整數1
因此,我想問幾個問題:
- 如何確定map_partitions的返回值?
- 什麼影響除了分區數量之外的函數調用次數/什麼標準有一個函數可以滿足每個分區調用一次?
- 什麼應該是一個函數的返回值,只有「做」了某些事情,即一個過程?
- 函數應該如何設計,返回任意對象?
謝謝,尤其是對於在描述的情況下使用dask.delayed的提示。但是爲什麼在VAL = 1的情況下我只能得到2個函數調用? –
我可以問你[提出問題](https://github.com/dask/dask/issues/new) – MRocklin
https://github.com/dask/dask/issues/1518 –