火花作業成功完成後,持續的Spark RDD會發生什麼?Spark Job完成後持續的RDD會發生什麼?
我們是否需要明確地編寫一些代碼以使其不符合要求?
或
不存在於每一堅持RDD unpersisting自動發生?
火花作業成功完成後,持續的Spark RDD會發生什麼?Spark Job完成後持續的RDD會發生什麼?
我們是否需要明確地編寫一些代碼以使其不符合要求?
或
不存在於每一堅持RDD unpersisting自動發生?
我們需要明確地編寫一些代碼來unpersist呢?
是
是否unpersisting自動爲每個堅持RDD發生什麼呢?
沒有,你需要通過調用
RDD.unpersist()
或
df1.unpersist()
並做明確總是unpersist血統結束後的DF,涉及持久性/緩存DF最後一個動作後, 。
火花的官方文件說
火花自動監視每個節點上高速緩存的使用,並滴出在一個最近最少使用(LRU)方式的舊數據的分區。如果您想要手動刪除RDD而不是等待其從緩存中刪除,請使用RDD.unpersist()方法。
請看看http://spark.apache.org/docs/latest/programming-guide.html#removing-data
是的,非常感謝您的乾淨答案。最後一次行動後,我將不執行我的DF。 –
@ sanket:如果我在Spark Job中只有一個Action,那麼堅持RDD是否是一個好習慣。如果堅持使用RDD,我在性能方面是否會獲得任何好處? –