2016-09-07 68 views
1

我在AWS上安裝了一個集羣,我已經在大量數據上安裝了H2O,Sparkling Water和H2O Flow以進行機器學習。從Spark中讀取JSON文件流入H2O

現在,這些文件來自流式作業的JSON格式。假設他們被放置在一個名爲streamed-data的文件夾中。

從星火,使用SparkContext,我可以很容易地閱讀一氣呵成創建RDD作爲(這是Python,但並不重要):

sc = SparkContext() 
sc.read.json('path/streamed-data') 

這讀取所有這些,造成了我RDD,非常方便。

現在,我想利用H2O的功能,因此我已經將它安裝在羣集上,以及其他提到的軟件。

從H2O流向來看,我的問題是缺少JSON解析器,所以我想知道如果我可以將它們首先導入到H2O中,或者如果有任何事情可以解決問題。

回答

1

運行蘇打水時,您可以很容易地將RDD/DF/DS轉換爲H2O框架。像這樣的東西(斯卡拉,巨蟒看起來相似)應該工作:

val dataDF = sc.read.json('path/streamed-data') 
val h2oContext = H2OContext.getOrCreate(sc) 
import h2oContext.implicits._ 
val h2oFrame = h2oContext.asH2OFrame(dataDF, "my-frame-name") 

從現在開始,你可以使用從代碼級的框架和/或FlowUI。

你可以在這裏找到更多的例子for Python和這裏for Scala