我是Scala的新手,爲了對大數據集執行一些分析,我必須使用Scala和Spark的SQL,Mllib和GraphX。我想要做的分析是:Spark上的數據分析Scala
- 客戶生命週期價值(CLV)
- 掌措施(度,特徵向量,邊緣介, 親近)的數據是一個CSV文件(60GB(3年跨國數據))位於Hadoop集羣中的 。
我的問題是關於訪問數據和執行上述計算的最佳方法?
- 我應該將CSV文件中的數據加載到數據框中,並在 上處理數據幀嗎?或
- 我應該從CSV文件加載數據並將其轉換爲RDD和 然後在RDD上工作?或
- 是否有任何其他方法來訪問數據並執行分析?
預先感謝您這麼多的幫助..
dataframes的有些類型安全的版本是數據集,這是推薦的,因爲更好的數據壓縮的API。對於類型安全問題,有https://github.com/adelbertc/frameless/ – Reactormonk