0
我正在嘗試使用Tachyon實現RDD/Dataframe共享。我的理解是,對於HDFS underFS,寫入是異步的(在場景後面發生HDFS複製),因此速度應該更快,但在測試中我發現使用HDFS underFS的Tachyon在寫入時速度較慢2-6倍。如何爲Spark-Tachyon集成啓用基於譜系的容錯功能?
從this Tachyon paper我看到:
「我們做了[基於譜系容錯]配置在我們的星火和MapReduce一體化」
如何啓用星火使用譜系基於Tachyon容錯?
注意:我使用Spark Dataframe方法df.write.parquet
和RDD方法rdd.saveAsObjectFile
將我的Dataframes/RDD保存到Tachyon。