1
我有一個加載兩個Avro文件(都具有相同架構)的Spark作業(在CDH 5.5.1中),然後將它們組合起來製作一個DataFrame(也具有相同的架構),然後把它們寫回Avro。Spark在寫入Avro時會更改架構
作業顯式比較兩個輸入模式以確保它們相同。
這是用來結合現有的數據和幾個更新(因爲文件是不可變的)。然後我用HDFS中的新文件替換原來的文件。
但是,如果我重複更新過程(即嘗試向以前更新的文件添加一些更新的更新),則作業將失敗,因爲現在的模式不同!到底是怎麼回事?