是否可以通過spark-streaming作業設置跟蹤HBase表並每次讀取新的/更新的行?博客here表示HDFS文件受支持的來源。但他們似乎正在使用以下靜態API:Spark Streaming:source HBase
sc.newAPIHadoopRDD(..)
我找不到任何文檔。是否有可能使用Spark Streaming上下文從hbase進行流式傳輸?任何幫助表示讚賞。
謝謝!
是否可以通過spark-streaming作業設置跟蹤HBase表並每次讀取新的/更新的行?博客here表示HDFS文件受支持的來源。但他們似乎正在使用以下靜態API:Spark Streaming:source HBase
sc.newAPIHadoopRDD(..)
我找不到任何文檔。是否有可能使用Spark Streaming上下文從hbase進行流式傳輸?任何幫助表示讚賞。
謝謝!
提供的鏈接做以下
讀取數據流 - 將其轉換成HBase的投入,然後添加到HBase的表。在此之前,它的流媒體。這意味着你的攝取過程是流式傳輸。
統計計算部分,我認爲是批處理 - 這使用newAPIHadoopRDD。這種方法將數據讀取部分視爲文件。在這種情況下,將文件從HBASE - 這就是以下的輸入格式
VAL hBaseRDD = sc.newAPIHadoopRDD(CONF,classOf [TableInputFormat], classOf [org.apache.hadoop的原因。 hbase.io.ImmutableBytesWritable], classOf [org.apache.hadoop.hbase.client.Result])
如果你想讀的HBase的更新如流,那麼你應該有WAL的手柄(預寫日誌)後端的HBase,然後執行你的操作。 HBase-indexer是開始閱讀HBase中任何更新的好地方。
我已經使用hbase-indexer在後端讀取hbase更新,並在它們到達時指示它們solr。希望這可以幫助。