Q

火花RDD容錯的誤區

2017-09-06 187 views 4 likes

4

很多人說：火花RDD容錯的誤區

Spark不會複製hdfs中的數據。

Spark將操作放置在DAG圖中.Spark構建RDD譜系。如果一個RDD丟失了，他們可以在血統圖的幫助下重建。所以不需要數據複製，因爲RDDS可以從血統圖重新計算。

我的問題是：

如果一個節點出現故障，火花只會重新計算RDD分區失去了這個節點上，但哪裏的recompution過程所需的數據源從何而來？當節點失效時，你的意思是它的父RDD還在嗎？如果失去一些分區的RDD沒有父RDD（如RDD來自火花流接收器），該怎麼辦？

2017-09-06 Gary Gauh

A

回答

2

如果我們通過計算失去了一部分，該怎麼辦？

依靠MR的核心洞察力！決定論提供了安全的重新計算。
追蹤每個RDD的「血統」。如果需要，可以從父母重新計算。

有趣的：只需要記錄微小的狀態來做重新計算。

Need parent pointer, function applied, and a few other bits. 
Log 10 KB per transform rather than re-output 1 TB -> 2 TB

孩子RDD是介紹如何從父RDD計算RDD元數據。瞭解更多What is RDD dependency in Spark?

2017-09-06 07:37:13 gsamaras

相關問題

11. 創建從使用火花的RDD
12. 使用RDD的火花流上下文
13. 有序的火花RDD聯盟
14. 火花的Java：顯示加入RDD
15. 火花流HBase的錯誤
16. 星火多維RDD分區
17. 火花RDD跨成對的RDD唯一值
18. 循環內火花RDD過濾器
19. saveAsTextFile非RDD火花斯卡拉
20. 地圖功能火花RDD不工作
21. Rdd火花和斯卡拉JSON
22. 火花：基於另一個RDD
23. 模式匹配 - 火花斯卡拉RDD
24. 火花地圖RDD vs連接
25. 火花RDD發現通過鍵
26. 找到孔成一個DateTime火花RDD
27. 編譯錯誤火花1.3.1
28. 火花錯誤：spark.read.format（「org.apache.spark.csv」）
29. 星火執行錯誤：火花提交
30. 齊柏林火花RDD命令失敗火花殼工作尚未