我有一個在本地運行的R腳本:每個記錄/行被送入一個名爲func的函數來執行一些計算。所以流程如下。如何使用sparkR在不同的集羣上進行並行計算?
new <- lapply(old, func)
理想的情況下,使用sparkR,我希望每個工人都有函數func和「老」的一個子集進行計算。在這種情況下,func非常簡單,可以在本地計算(不需要此func的分佈式版本)。
任何人都知道如何使用SparkR來實現這一點?基本上問題是SparkR是否支持像dopa parallel一樣的多功能工作。
基本上,問題是「有沒有在SparkR像doparallel但多位工人運作的任何支持」 – HappyCoding
你想要做的地圖嗎?如果是這樣,請參閱http://stackoverflow.com/questions/31012765/how-to-do-map-and-reduce-in-sparkr –