1
我有一個Spark作業,它從HDFS讀取數百萬條記錄,處理它們,並以AVRO格式回寫到HDFS。觀察到許多文件(寫入)保持在.avro.tmp狀態。文件在Spark作業中保持.avro.tmp狀態?
我使用Kite SDK以AVRO格式寫入數據。環境是CDH 5.5。
難道是因爲星火工作,只要它與閱讀記錄,並將其發送給執行者完成終止(這實際上不寫?)
如果是這樣的話,我該如何確保作業直到所有.tmp轉換成.avro纔會終止?
還有什麼可能的原因?
謝謝,任何幫助/指針,將不勝感激。