2017-10-18 99 views
2

使用SparkR,我想知道是否有可能一個Spark數據幀轉換成H2O框架?轉換SparkR數據幀,以H2O框架

我見過將R data.frames轉換爲h2o幀的例子,但遺憾的是,這不是一個可行的選項(數據大小)。

我知道這是可能使用sparklyrrsparkling創建H2O框架,但我不使用HIVE,或者Hadoop的,sparklyrrsparkling

相反,我的目標是從這個sdf轉換:

set.seed(123) 
df<- data.frame(ColA=rep(c("dog", "cat", "fish", "shark"), 4), ColB=rnorm(16), ColC=rep(seq(1:8),2)) 
sdf<- SparkR::createDataFrame(df) 

成這樣:

as.h2o(sdf, destination_frame = "hsdf") # fails, came from Spark (SparkR) 
as.h2o(df, destination_frame = "hdf") # succeeds, but this is a regular R data.frame 

希望有人想出一個辦法做到這一點使用什麼SparkR可以提供。我認爲這將是一個巨大的福音於R用戶。

回答

0

沒有爲在任一H2OSparkR包H 2 O之間轉換和Spark幀本身不支持。你將不得不使用rsparkling(這取決於sparklyr)或從星火數據框中做一個轉換 - > [R data.frame - > H2O框架。

你提到Hadoop和HIVE ...只是爲了澄清這兩種方法都不是使用rsparkling::as_h2o_frame()要求。