1
我在AWS上安裝了一個集羣,我已經在大量數據上安裝了H2O,Sparkling Water和H2O Flow以進行機器學習。從Spark中讀取JSON文件流入H2O
現在,這些文件來自流式作業的JSON格式。假設他們被放置在一個名爲streamed-data
的文件夾中。
從星火,使用SparkContext,我可以很容易地閱讀一氣呵成創建RDD作爲(這是Python,但並不重要):
sc = SparkContext()
sc.read.json('path/streamed-data')
這讀取所有這些,造成了我RDD,非常方便。
現在,我想利用H2O的功能,因此我已經將它安裝在羣集上,以及其他提到的軟件。
從H2O流向來看,我的問題是缺少JSON解析器,所以我想知道如果我可以將它們首先導入到H2O中,或者如果有任何事情可以解決問題。