我使用火花結構化流式傳輸從s3位置讀取傳入數據,所以我在這裏有兩個問題。apache spark結構化流式傳輸
問題1)
我開始結構化數據流管道讀取在S3中傳入的文件。我提供傳入的JSON數據的模式作爲
柱A,列B,列C^
我執行一些轉化和將數據寫入在拼花格式的另一個S3位置,其具有下面的模式
山坳,山坳A「列B,列B」,列C,山坳C」
現在說了些日子我傳入數據流的變化和,所以我需要我的傳入模式改變爲
案例1)col A,col B,col C,col D
案例2)柱A,列B
然後後,我做的改造,我需要在地板我的新轉變模式作爲
案例1)山坳,山坳A」,列B,列B '山口C,山口C',山口d,山口d '
情況2)柱A,山口A',列B,列B」
所以是這件事情可能考慮到流輸出寫入到實木複合地板文件
問題2)
Spark結構化流式使用checkpointLocation,那麼有什麼辦法可以重新處理一些/所有的預處理數據。
問題1) 看來,我們可以做這樣的事情 spark.read.option( 「mergeSchema」, 「真」)。實木複合地板( 「S3 ...」) – anaidu