從spark 2.0.1開始我有一些問題。我看了很多文件,但至今未能找到足夠的答案:Spark 2.0數據集vs DataFrame
- 是什麼
df.select("foo")
df.select($"foo")
- 之間的區別做我理解正確的是
myDataSet.map(foo.someVal)
是typesafe和wi將不會轉換爲RDD
,但保留在DataSet表示中/無額外的開銷(2.0.0的性能)
- 所有其他命令選擇,..只是語法糖。它們不是類型安全的,可以使用地圖代替。沒有map語句,我怎麼能
df.select("foo")
類型安全?- 爲什麼我應該使用UDF/UADF而不是地圖(假設地圖停留在數據集表示中)?
有一個項目,旨在爲星火更多類型的安全而有效的執行路徑上停留:[typelevel /無框](https://github.com/typelevel/frameless) –