- What is the difference between Spark DataSet and RDD
- Difference between DataSet API and DataFrame
- http://spark.apache.org/docs/latest/sql-programming-guide.html#datasets-and-dataframes
- https://databricks.com/blog/2016/07/14/a-tale-of-three-apache-spark-apis-rdds-dataframes-and-datasets.html
在火花1.6數據集似乎更喜歡的改進的數據幀("Conceptually Spark DataSet is just a DataFrame with additional type safety")。在Spark 2.0中,它更像是一個improved RDD。前者具有關係模型,後者更像是一個列表。對於Spark 1.6,據說數據集是DataFrame的擴展,而在Spark 2.0中,DataFrame只是包含類型[Row]
的數據集,使DataFrame成爲數據集的特例,使DataFrame成爲數據集的特例。現在我有點困惑。 Spark 2.0中的數據集在概念上更像是RDD還是DataFrame? 什麼是概念在Spark 2.0中RDD與數據集的區別?