Apache Spark（scala）+ python/R數據分析工作流程

我想知道人們在做這個堆棧的數據分析。我對Spark Scala API特別感興趣，因爲它似乎具有更新的功能，對Spark更「自然」。Apache Spark（scala）+ python/R數據分析工作流程

不過，我不確定什麼最佳實踐是相對於數據可視化和探索，一旦大數據被碾碎和減少。

例如，我運行一個Spark作業超過〜2 Bn記錄，現在我有一個Spark數據框，它包含大約100k條記錄，其中包含一些結果，我想直方圖，繪圖和應用某些ML到python或R.

什麼是實現這兩個世界之間的握手的最佳方式？將結果保存到文件中？（如果是這樣，什麼是最好的選擇，parquet，avro，json，csv？）將它保存到數據庫？

基本上我不知道別人怎麼找到最舒適的一個類似棧工作。

2016-03-04 elelias

一旦數據被轉化或火花嘎吱作響，你可以考慮以下可視化的數據。

Apache zeppelin交互式數據分析。

另一種選擇是存儲星火輸出工作在ElasticSearch的結果，我們可以使用Kibana可視化。

2016-03-04 13:24:00 nagendra

回答