帶有流水線的結構化流式傳輸

嗨，有誰能告訴我如何使用Spark全新的API來讀取流式流結構化流式傳輸。帶有流水線的結構化流式傳輸

實施例：

val lines = spark.readStream.format("socket").option("host", "localhost").option("port", 9999).load()

2016-11-15 user1624578

val flumeStream = FlumeUtils.createStream(streamingContext, [chosen machine's hostname], [chosen port]) for push based approach and 
val flumeStream = FlumeUtils.createPollingStream(streamingContext, [sink machine hostname], [sink port]) for pull-based approach

來源

2016-11-22 06:08:41 Farslan

火花2.1的，火花僅支持文件，卡夫卡和Socket源。 Socket SOurce用於調試和開發，不應該進行生產化。這留下了File和Kafka的來源。

因此，您擁有的唯一選項是 a）從FLume獲取數據並將它們轉儲到S3文件中。 Spark可以從S3文件中獲取數據。文件源的工作方式是它監視一個文件夾，當出現一個新文件時，它將其加載爲一個microbatch b）將您的事件彙集到一個Kafka實例中

來源

2017-02-10 21:41:59

帶有流水線的結構化流式傳輸

回答

相關問題