我已經使用rosetta.parallel.pandas_easy並行組後申請通過,例如:並行化應用大熊貓後GROUPBY
from rosetta.parallel.pandas_easy import groupby_to_series_to_frame
df = pd.DataFrame({'a': [6, 2, 2], 'b': [4, 5, 6]},index= ['g1', 'g1', 'g2'])
groupby_to_series_to_frame(df, np.mean, n_jobs=8, use_apply=True, by=df.index)
但是,有沒有人想出如何並行返回一個數據幀的功能?正如預期的那樣,此代碼不適用於rosetta。
def tmpFunc(df):
df['c'] = df.a + df.b
return df
df.groupby(df.index).apply(tmpFunc)
groupby_to_series_to_frame(df, tmpFunc, n_jobs=1, use_apply=True, by=df.index)
你知道在將並行化併入熊貓方面是否有任何進展? – NumenorForLife 2015-05-14 19:53:55
通過這樣做小的修改功能,可以做回分級指數,經常適用的回報: '高清temp_func(FUNC,名稱,組): 回報FUNC(組),名稱 高清applyParallel(dfGrouped ,func): 返回pd.concat(retLst,top_index = zip(* Parallel(n_jobs = multiprocessing.cpu_count())(延遲(temp_func)(func,name,group)名稱,dfGrouped中的組)) return pd.concat(retLst,我不知道如何在評論中發佈代碼... – BoZenKhaa 2015-12-10 17:12:57
@ jsc123:有[dask](https://github.com/blaze/dask) – paulochf 2016-01-18 21:50:16