2016-08-29 31 views
3

dask API表示,map_partition可用於「在每個DataFrame分區上應用Python函數」。根據這個描述並根據「map」的通常行爲,我預計map_partitions的返回值將是(類似於)其長度等於分區數量的列表。列表中的每個元素都應該是函數調用的返回值之一。map_partitions在做什麼?

然而,相對於下面的代碼,我不知道,什麼返回值取決於:

#generate example dataframe 
pdf = pd.DataFrame(np.random.randint(0,100,size=(100, 4)), columns=list('ABCD')) 
ddf = dd.from_pandas(pdf, npartitions=3) 

#define helper function for map. VAL is the return value 
VAL = pd.Series({'A': 1}) 
#VAL = pd.DataFrame({'A': [1]}) #other return values used in this example 
#VAL = None 
#VAL = 1 
def helper(x): 
    print('function called\n') 
    return VAL 

#check result 
out = ddf.map_partitions(helper).compute() 
print(len(out)) 
  • VAL = pd.Series({'A': 1})原因4次函數調用(可能是一個推斷D型和3對分區)和一個帶有len == 3和類型pd.Series的輸出。
  • pd.DataFrame({'A': [1]})導致相同的數字,但結果類型是pd.DataFrame。
  • VAL = None會導致TypeError ...爲什麼?不可能使用map_partitions去東西而不是返回東西?
  • VAL = 1僅導致2個函數調用。 map_partitions的結果是整數1

因此,我想問幾個問題:

  1. 如何確定map_partitions的返回值?
  2. 什麼影響除了分區數量之外的函數調用次數/什麼標準有一個函數可以滿足每個分區調用一次?
  3. 什麼應該是一個函數的返回值,只有「做」了某些事情,即一個過程?
  4. 函數應該如何設計,返回任意對象?

回答

1

Dask DataFrame.map_partitions函數根據映射函數的輸出類型返回一個新的Dask Dataframe或Series。有關詳細說明,請參閱API documentation

  1. map_partitions的返回值是如何確定的?

    查看上面提到的API文檔。

  2. 除了分區數量之外,什麼影響函數調用次數/什麼標準有一個函數可以在每個分區中調用一次?

    你是對的,我們馬上調用它來猜測輸出的dtype/columns。您可以通過直接指定meta=關鍵字來避免此情況。除此之外,該功能每個分區被調用一次。

  3. 什麼應該是一個函數的返回值,只有「做」某事,即一個過程?

    你總是可以返回一個空的數據框。您可能還需要考慮將數據幀轉換爲dask.delayed對象序列,這些對象通常更常用於臨時計算。

  4. 函數應該如何設計,返回任意對象?

    如果你的函數沒有返回序列/數據幀,那麼我建議用DataFrame.to_delayed方法將你的數據幀轉換爲dask.delayed對象序列。

+0

謝謝,尤其是對於在描述的情況下使用dask.delayed的提示。但是爲什麼在VAL = 1的情況下我只能得到2個函數調用? –

+0

我可以問你[提出問題](https://github.com/dask/dask/issues/new) – MRocklin

+0

https://github.com/dask/dask/issues/1518 –