Spark上的數據分析Scala

我是Scala的新手，爲了對大數據集執行一些分析，我必須使用Scala和Spark的SQL，Mllib和GraphX。我想要做的分析是：Spark上的數據分析Scala

我的問題是關於訪問數據和執行上述計算的最佳方法？

預先感謝您這麼多的幫助..

2016-09-25 Max Marsh

數據框讓你喜歡的sql語法與在作爲RDD給斯卡拉收集像數據處理方法的數據進行工作。

Dataframes的一個額外好處是底層的sprak系統將優化您的查詢，就像sql查詢優化一樣。這在RDD的情況下不可用。

如你是新來的Scala公司強烈推薦最初使用Dataframes API，然後拿起RDD API以後根據需求。

2016-09-25 15:28:05 pamu

dataframes的有些類型安全的版本是數據集，這是推薦的，因爲更好的數據壓縮的API。對於類型安全問題，有https://github.com/adelbertc/frameless/ – Reactormonk

您可以使用Databricks CSV reader API，它易於使用，並返回DataFrame。它會自動推斷數據類型。如果你通過頭文件傳遞它可以自動使用它作爲架構，否則你可以使用StructType構造架構。

https://github.com/databricks/spark-csv

更新： 如果您正在使用的Spark 2.0版本，默認情況下它支持CSV數據源，請參閱以下鏈接。

2016-09-25 16:39:27 Shankar

回答