apache spark結構化流式傳輸

我使用火花結構化流式傳輸從s3位置讀取傳入數據，所以我在這裏有兩個問題。apache spark結構化流式傳輸

問題1）

我開始結構化數據流管道讀取在S3中傳入的文件。我提供傳入的JSON數據的模式作爲

柱A，列B，列C^

我執行一些轉化和將數據寫入在拼花格式的另一個S3位置，其具有下面的模式

山坳，山坳A「列B，列B」，列C，山坳C」

現在說了些日子我傳入數據流的變化和，所以我需要我的傳入模式改變爲

案例1）col A，col B，col C，col D

案例2）柱A，列B

然後後，我做的改造，我需要在地板我的新轉變模式作爲

案例1）山坳，山坳A」，列B，列B '山口C，山口C'，山口d，山口d '

情況2）柱A，山口A'，列B，列B」

所以是這件事情可能考慮到流輸出寫入到實木複合地板文件

問題2）

Spark結構化流式使用checkpointLocation，那麼有什麼辦法可以重新處理一些/所有的預處理數據。

2017-07-19 anaidu

問題1）看來，我們可以做這樣的事情 spark.read.option（「mergeSchema」，「真」）。實木複合地板（「S3 ...」） – anaidu

回答您的問題2

只要刪除檢查點位置的目錄&重新啓動進程。

2017-09-23 04:40:25

是的，但是是有作爲的方式重新處理一些特定的數據，刪除checkPointing位置將重新處理一切 – anaidu

回答