如何在Spark Streaming中使用基於數據集的轉換？

我有一個批處理模式的Spark作業（使用數據集），它執行一些轉換並將數據攝入到NOSQL中。如何在Spark Streaming中使用基於數據集的轉換？

我從其他來源獲取數據，雖然頻率非常高（分鐘），但在結構上與批處理模式相似。我可以使用用於Streaming的批處理模式的代碼嗎？

我試圖避免2代碼處理類似的結構副本。

2017-01-20 xstack2000

請發佈更多詳細信息 - 你在做什麼，一些代碼示例和Spark版本。在Spark 2.0中，您有結構化流式處理，因此流式數據集可以使用 –

從http://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#overview：「結構化流式處理仍然是ALPHA in Spark 2.1和API仍然是實驗性的。「我讀作「不適合生產使用」/「知道但不使用」。 –

可以使用transform流操作者（如在the scaladoc描述）：

transform[U](transformFunc: (RDD[T]) ⇒ RDD[U])(implicit arg0: ClassTag[U]): DStream[U]

返回在由上「這」 DSTREAM的每個RDD應用一個函數產生的每個RDD新DSTREAM。

來源

2017-01-21 16:23:34

如何在Spark Streaming中使用基於數據集的轉換？

回答

相關問題