2016-04-21 59 views
0

我正在考慮緩存一個RDD,這些RDD只有在引發異常並且作業被終止時才花費更長的時間才能處理。如果我再次運行該工作,我希望它繼續失敗,避免再次處理該RDD。只有當拋出異常時,Apache Spark RDD持久性

它有道理嗎?相同的工作是否會啓動不同的Spark上下文而無法找到緩存的RDD?

謝謝!

回答

1

當Spark程序退出時,緩存的數據將丟失。不過,檢查點可能是一個選項,因爲它會將RDD保存到磁盤。 Check here作進一步解釋。

+0

感謝您的回答!檢查點是一個強大的功能,但我認爲它不適合我希望避免在失敗後重新計算同一作業的場景。我相信檢查點在成功完成作業後觸發另一項工作,而在我的情況下,作業失敗。 – djodar