數據集＃持久（）終端操作？

當org.apache.spark.sql.Dataset#persist()被調用時，spark是否實際緩存了Dataset？或者當某個終端操作（如count）將在Dataset上被調用時，它將被緩存。數據集＃持久（）終端操作？

因爲Spark Dataset.persist中的所有緩存操作都是惰性的，並且只會標記給定的緩存對象，所以如果它被評估過。

與RDDs相比，主要區別在於評估難以推理。請參閱開發人員名單上的相關討論：Will .count() always trigger an evaluation of each row?

2017-03-01 15:01:02 user6910411

回答