0
我想知道人們在做這個堆棧的數據分析。我對Spark Scala API特別感興趣,因爲它似乎具有更新的功能,對Spark更「自然」。Apache Spark(scala)+ python/R數據分析工作流程
不過,我不確定什麼最佳實踐是相對於數據可視化和探索,一旦大數據被碾碎和減少。
例如,我運行一個Spark作業超過〜2 Bn記錄,現在我有一個Spark數據框,它包含大約100k條記錄,其中包含一些結果,我想直方圖,繪圖和應用某些ML到python或R.
什麼是實現這兩個世界之間的握手的最佳方式?將結果保存到文件中? (如果是這樣,什麼是最好的選擇,parquet,avro,json,csv?)將它保存到數據庫?
基本上我不知道別人怎麼找到最舒適的一個類似棧工作。