1
A
回答
3
不,它不會自動取消。
爲什麼?因爲可能你覺得RDD不再需要了,但是spark模型是在RDD需要進行轉換之前不能實現RDD,所以實際上很難說「我不需要這個RDD」了。即使是你的,它可以是非常棘手的,因爲以下情況:
JavaRDD<T> rddUnion = sc.parallelize(new ArrayList<T>()); // create empty for merging
for (int i = 0; i < 10; i++)
{
JavaRDD<T2> rdd = sc.textFile(inputFileNames[i]);
rdd.cache(); // Since it will be used twice, cache.
rdd.map(...).filter(...).saveAsTextFile(outputFileNames[i]); // Transform and save, rdd materializes
rddUnion = rddUnion.union(rdd.map(...).filter(...)); // Do another transform to T and merge by union
rdd.unpersist(); // Now it seems not needed. (But is needed actually)
// Here, rddUnion actually materializes, and needs all 10 rdds that already unpersisted. So, rebuilding all 10 rdds will occur.
rddUnion.saveAsTextFile(mergedFileName);
}
信貸的代碼示例到spark-user ml
相關問題
- 1. StructureMap生命週期範圍
- 2. Array [Byte] Spark RDD to String Spark RDD
- 3. Spark RDD問題
- 4. Spark RDD更新
- 5. Spark RDD apend
- 6. RDD問題 - 列表索引超出範圍
- 7. 其他RDD中的Java Spark RDD?
- 8. 在動作之前UNION父rdd和子rdd會發生什麼?
- 9. Hbase Spark RDD JSON列
- 10. Spark scala RDD遍歷
- 11. Apache Spark RDD拆分「|」
- 12. RDD到Dataframe Spark Couchbase
- 13. global.asax範圍和生命週期澄清
- 14. Spark中是否有方法獲得RDD,RDD是另一個RDD的給定確切大小的隨機子集?
- 15. 是否有可能將apache點燃rdd轉換爲scala中的spark rdd
- 16. 過濾RDD的日期joda/scala/spark
- 17. Spark RDD動態密鑰生成器
- 18. 一旦指針超出範圍,內存是否會被釋放?
- 19. 減少Spark RDD返回多個值
- 20. Spark,Scala - 從rdd映射輸出
- 21. Javascript變量生命週期,變量是否會在返回時被複制?
- 22. Apache Spark RDD工作流程
- 23. Spark中的RDD樣本
- 24. Spark RDD的模式定義
- 25. Apache Spark RDD值查找
- 26. Spark Streaming DStream元素vs RDD
- 27. Apache Spark Rdd持續存在
- 28. Spark中的RDD持久性
- 29. Spark Streaming Empty RDD問題
- 30. RDD在SPARK的聯盟
嗨,@ C4stor感謝您的回答,但檢查https://開頭的github .com/apache/spark/pull/126和ContextCleaner.scala,似乎Spark做了一些自動清理RDD。所以不知道SPark如何以及何時決定不執行RDD是安全的。 –