1
當org.apache.spark.sql.Dataset#persist()
被調用時,spark是否實際緩存了Dataset
?或者當某個終端操作(如count
)將在Dataset
上被調用時,它將被緩存。數據集#持久()終端操作?
當org.apache.spark.sql.Dataset#persist()
被調用時,spark是否實際緩存了Dataset
?或者當某個終端操作(如count
)將在Dataset
上被調用時,它將被緩存。數據集#持久()終端操作?
因爲Spark Dataset.persist
中的所有緩存操作都是惰性的,並且只會標記給定的緩存對象,所以如果它被評估過。
與RDDs相比,主要區別在於評估難以推理。請參閱開發人員名單上的相關討論:Will .count() always trigger an evaluation of each row?