嗨,有誰能告訴我如何使用Spark全新的API來讀取流式流結構化流式傳輸。帶有流水線的結構化流式傳輸
實施例:
val lines = spark.readStream.format("socket").option("host", "localhost").option("port", 9999).load()
嗨,有誰能告訴我如何使用Spark全新的API來讀取流式流結構化流式傳輸。帶有流水線的結構化流式傳輸
實施例:
val lines = spark.readStream.format("socket").option("host", "localhost").option("port", 9999).load()
val flumeStream = FlumeUtils.createStream(streamingContext, [chosen machine's hostname], [chosen port]) for push based approach and
val flumeStream = FlumeUtils.createPollingStream(streamingContext, [sink machine hostname], [sink port]) for pull-based approach
火花2.1的,火花僅支持文件,卡夫卡和Socket源。 Socket SOurce用於調試和開發,不應該進行生產化。這留下了File和Kafka的來源。
因此,您擁有的唯一選項是 a)從FLume獲取數據並將它們轉儲到S3文件中。 Spark可以從S3文件中獲取數據。文件源的工作方式是它監視一個文件夾,當出現一個新文件時,它將其加載爲一個microbatch b)將您的事件彙集到一個Kafka實例中