2017-07-18 79 views
3

我們有來自kafka的spark流在HDFS服務器中創建檢查點,並且沒有清理乾淨,現在我們在HDFS中有數百萬個檢查點。有沒有辦法從火花自動清理它?Spark Streaming清理RDD檢查點目錄

星火1.6版 HDFS 2.70

There are other random directories other than checkpoints which is not been cleared

回答

2
val conf = new SparkConf().set("spark.cleaner.referenceTracking.cleanCheckpoints", "true") 

清洗不應該對所有檢查點自動完成,就必須圍繞讓他們跨過火花invocations.As星火流節省了中間狀態的數據集作爲檢查點並依靠它們從驅動器故障中恢復。

+0

謝謝,但我看到除檢查點以外的隨機數據,它沒有清除它,你有什麼想法是什麼?在上述問題中添加了一個圖像 – Sads

+0

實際上,即使您設置了'--conf spark.cleaner.referenceTracking.cleanCheckpoints = True',火花作業的最後一個檢查點也不會被清除。 – asmaier