0
import multiprocessing
data = range(10)
def map_func(i):
return [i]
def reduce_func(a,b):
return a+b
p = multiprocessing.Pool(processes=4)
p.map(map_func, data)
減少如何使用reduce_func()
作爲paralelised map_func()
reduce函數。地圖多處理
這裏是什麼,我想做一個pySpark
例如:
rdd = sc.parallelize(data)
result = rdd.map(map_func)
final_result = result.reduce(reduce_func)
'functools.reduce(reduce_func,p.map(map_func,數據))'產生數字0到9的列表,隨機性取決於量級多處理正在映射數據。 – chapelo
不錯,謝謝。 –