2017-01-20 40 views
1

我有一個批處理模式的Spark作業(使用數據集),它執行一些轉換並將數據攝入到NOSQL中。如何在Spark Streaming中使用基於數據集的轉換?

我從其他來源獲取數據,雖然頻率非常高(分鐘),但在結構上與批處理模式相似。我可以使用用於Streaming的批處理模式的代碼嗎?

我試圖避免2代碼處理類似的結構副本。

+0

請發佈更多詳細信息 - 你在做什麼,一些代碼示例和Spark版本。在Spark 2.0中,您有結構化流式處理,因此流式數據集可以使用 –

+0

從http://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#overview:「結構化流式處理仍然是ALPHA in Spark 2.1和API仍然是實驗性的。「我讀作「不適合生產使用」/「知道但不使用」。 –

回答

0

可以使用transform流操作者(如在the scaladoc描述):

transform[U](transformFunc: (RDD[T]) ⇒ RDD[U])(implicit arg0: ClassTag[U]): DStream[U] 

返回在由上「這」 DSTREAM的每個RDD應用一個函數產生的每個RDD新DSTREAM。

相關問題