從Spark中讀取JSON文件流入H2O

我在AWS上安裝了一個集羣，我已經在大量數據上安裝了H2O，Sparkling Water和H2O Flow以進行機器學習。從Spark中讀取JSON文件流入H2O

現在，這些文件來自流式作業的JSON格式。假設他們被放置在一個名爲streamed-data的文件夾中。

從星火，使用SparkContext，我可以很容易地閱讀一氣呵成創建RDD作爲（這是Python，但並不重要）：

sc = SparkContext() 
sc.read.json('path/streamed-data')

這讀取所有這些，造成了我RDD，非常方便。

現在，我想利用H2O的功能，因此我已經將它安裝在羣集上，以及其他提到的軟件。

從H2O流向來看，我的問題是缺少JSON解析器，所以我想知道如果我可以將它們首先導入到H2O中，或者如果有任何事情可以解決問題。

來源

2016-09-07 mar tin

運行蘇打水時，您可以很容易地將RDD/DF/DS轉換爲H2O框架。像這樣的東西（斯卡拉，巨蟒看起來相似）應該工作：

val dataDF = sc.read.json('path/streamed-data') 
val h2oContext = H2OContext.getOrCreate(sc) 
import h2oContext.implicits._ 
val h2oFrame = h2oContext.asH2OFrame(dataDF, "my-frame-name")

從現在開始，你可以使用從代碼級的框架和/或FlowUI。

你可以在這裏找到更多的例子for Python和這裏for Scala。

來源

2016-09-07 15:58:10

從Spark中讀取JSON文件流入H2O

回答

相關問題