2017-07-19 155 views
0

我使用火花結構化流式傳輸從s3位置讀取傳入數據,所以我在這裏有兩個問題。apache spark結構化流式傳輸

問題1)

我開始結構化數據流管道讀取在S3中傳入的文件。我提供傳入的JSON數據的模式作爲

柱A,列B,列C^

我執行一些轉化和將數據寫入在拼花格式的另一個S3位置,其具有下面的模式

山坳,山坳A「列B,列B」,列C,山坳C」

現在說了些日子我傳入數據流的變化和,所以我需要我的傳入模式改變爲

案例1)col A,col B,col C,col D

案例2)柱A,列B

然後後,我做的改造,我需要在地板我的新轉變模式作爲

案例1)山坳,山坳A」,列B,列B '山口C,山口C',山口d,山口d '

情況2)柱A,山口A',列B,列B」

所以是這件事情可能考慮到流輸出寫入到實木複合地板文件

問題2)

Spark結構化流式使用checkpointLocation,那麼有什麼辦法可以重新處理一些/所有的預處理數據。

+0

問題1) 看來,我們可以做這樣的事情 spark.read.option( 「mergeSchema」, 「真」)。實木複合地板( 「S3 ...」) – anaidu

回答

0

回答您的問題2

只要刪除檢查點位置的目錄&重新啓動進程。

+0

是的,但是是有作爲的方式重新處理一些特定的數據, 刪除checkPointing位置將重新處理一切 – anaidu

相關問題