2016-11-30 69 views
3

如果我想在SparkR中使用像MXNet這樣的標準R包,可以嗎?在Spark分佈式環境中可以使用標準CRAN包,而不考慮本地VS Spark數據幀。在R和Spark中處理大型數據集的策略是使用Spark數據框,縮小Dataframe並將其轉換爲本地數據框以使用標準CRAN包?有沒有我不知道的另一種策略?在SparkR中使用CRAN包

感謝

回答

2

可以在標準CRAN包星火分佈式環境中使用而沒有考慮當地VS火花數據幀。

不,他們不能。

與R中大型數據集和Spark使用星火據幀,削減數據幀,然後將其轉換爲本地data.frame戰略。

不幸的是,大多數時候這就是你所做的。

有沒有我不知道的另一種策略?在火花2.0

dapplygapply功能可以應用任意的R代碼裏面給分區或組。

+0

謝謝你的答案。我會研究一下應用程序和gapply函數。 – user3220598

0

對於某些操作,您可以使用對本地R數據框和Spark數據框使用統一語法的程序包。例如,如果您使用Sparklyr,dplyr可以將您的標準數據糾纏操作返回到Spark羣集。只有在您需要本地操作時纔會獲取您的數據。