是否可以使用spark並行運行多個計算?如何實現火花的垂直平行度?
例子時,可以從中受益:
- 大型列運行列明智的任務。將StringIndexer應用於10K列可以從僅對單個工作人員進行計算以及讓儘可能多的工作人員在單列上工作中獲益。
爲小數據集運行多個原子任務。例如:
爲in_path,out_path在long_ds_list: spark.read(in_path)。選擇( '列')不同的()寫(out_path)
最接近的等同物我能想到。將是SparkR.lapply()或.Net Parallel.ForEach(),但是對於一個集羣環境,而不是簡單的多線程情況。