如果我想在SparkR中使用像MXNet這樣的標準R包,可以嗎?在Spark分佈式環境中可以使用標準CRAN包,而不考慮本地VS Spark數據幀。在R和Spark中處理大型數據集的策略是使用Spark數據框,縮小Dataframe並將其轉換爲本地數據框以使用標準CRAN包?有沒有我不知道的另一種策略?在SparkR中使用CRAN包
感謝
如果我想在SparkR中使用像MXNet這樣的標準R包,可以嗎?在Spark分佈式環境中可以使用標準CRAN包,而不考慮本地VS Spark數據幀。在R和Spark中處理大型數據集的策略是使用Spark數據框,縮小Dataframe並將其轉換爲本地數據框以使用標準CRAN包?有沒有我不知道的另一種策略?在SparkR中使用CRAN包
感謝
可以在標準CRAN包星火分佈式環境中使用而沒有考慮當地VS火花數據幀。
不,他們不能。
與R中大型數據集和Spark使用星火據幀,削減數據幀,然後將其轉換爲本地
data.frame
戰略。
不幸的是,大多數時候這就是你所做的。
有沒有我不知道的另一種策略?在火花2.0
dapply
和gapply
功能可以應用任意的R代碼裏面給分區或組。
謝謝你的答案。我會研究一下應用程序和gapply函數。 – user3220598