只有當拋出異常時，Apache Spark RDD持久性

我正在考慮緩存一個RDD，這些RDD只有在引發異常並且作業被終止時才花費更長的時間才能處理。如果我再次運行該工作，我希望它繼續失敗，避免再次處理該RDD。只有當拋出異常時，Apache Spark RDD持久性

它有道理嗎？相同的工作是否會啓動不同的Spark上下文而無法找到緩存的RDD？

謝謝！

2016-04-21 djodar

當Spark程序退出時，緩存的數據將丟失。不過，檢查點可能是一個選項，因爲它會將RDD保存到磁盤。 Check here作進一步解釋。

2016-04-21 16:35:00 David

感謝您的回答！檢查點是一個強大的功能，但我認爲它不適合我希望避免在失敗後重新計算同一作業的場景。我相信檢查點在成功完成作業後觸發另一項工作，而在我的情況下，作業失敗。 – djodar

回答