2015-12-11 23 views
0

我正在嘗試使用Tachyon實現RDD/Dataframe共享。我的理解是,對於HDFS underFS,寫入是異步的(在場景後面發生HDFS複製),因此速度應該更快,但在測試中我發現使用HDFS underFS的Tachyon在寫入時速度較慢2-6倍。如何爲Spark-Tachyon集成啓用基於譜系的容錯功能?

this Tachyon paper我看到:

「我們做了[基於譜系容錯]配置在我們的星火和MapReduce一體化」

如何啓用星火使用譜系基於Tachyon容錯?

注意:我使用Spark Dataframe方法df.write.parquet和RDD方法rdd.saveAsObjectFile將我的Dataframes/RDD保存到Tachyon。

回答

0

您應該設置tachyon.user.lineage.enabled爲true,並根據您的喜好調整其他譜系設置。一些最有趣的設置(從​​):

  • tachyon.master.lineage.checkpoint.interval.ms - 超光速粒子的檢查站調度的時間間隔(以毫秒爲單位)。
  • tachyon.master.lineage.checkpoint.class - 沿襲輸出文件的檢查點策略的類名稱。默認策略是檢查點最近完成的血統,即輸出文件完整的血統。
  • tachyon.master.lineage.recompute.interval.ms - Tachyon重新計算執行間隔(以毫秒爲單位)。執行程序掃描沿襲追蹤的所有丟失文件,並重新執行相應的作業。每10分鐘一班。

查看Lineage API docs瞭解更多詳情。

相關問題