如何爲Spark-Tachyon集成啓用基於譜系的容錯功能？

我正在嘗試使用Tachyon實現RDD/Dataframe共享。我的理解是，對於HDFS underFS，寫入是異步的（在場景後面發生HDFS複製），因此速度應該更快，但在測試中我發現使用HDFS underFS的Tachyon在寫入時速度較慢2-6倍。如何爲Spark-Tachyon集成啓用基於譜系的容錯功能？

從this Tachyon paper我看到：

「我們做了[基於譜系容錯]配置在我們的星火和MapReduce一體化」

如何啓用星火使用譜系基於Tachyon容錯？

注意：我使用Spark Dataframe方法df.write.parquet和RDD方法rdd.saveAsObjectFile將我的Dataframes/RDD保存到Tachyon。

來源

2015-12-11 Shane Kinsella

您應該設置tachyon.user.lineage.enabled爲true，並根據您的喜好調整其他譜系設置。一些最有趣的設置（從）：

tachyon.master.lineage.checkpoint.interval.ms - 超光速粒子的檢查站調度的時間間隔（以毫秒爲單位）。

tachyon.master.lineage.checkpoint.class - 沿襲輸出文件的檢查點策略的類名稱。默認策略是檢查點最近完成的血統，即輸出文件完整的血統。

tachyon.master.lineage.recompute.interval.ms - Tachyon重新計算執行間隔（以毫秒爲單位）。執行程序掃描沿襲追蹤的所有丟失文件，並重新執行相應的作業。每10分鐘一班。

查看Lineage API docs瞭解更多詳情。

來源

2015-12-11 14:17:54 zero323

如何爲Spark-Tachyon集成啓用基於譜系的容錯功能？

回答

相關問題