2016-03-04 83 views
0

我想知道人們在做這個堆棧的數據分析。我對Spark Scala API特別感興趣,因爲它似乎具有更新的功能,對Spark更「自然」。Apache Spark(scala)+ python/R數據分析工作流程

不過,我不確定什麼最佳實踐是相對於數據可視化和探索,一旦大數據被碾碎和減少。

例如,我運行一個Spark作業超過〜2 Bn記錄,現在我有一個Spark數據框,它包含大約100k條記錄,其中包含一些結果,我想直方圖,繪圖和應用某些ML到python或R.

什麼是實現這兩個世界之間的握手的最佳方式?將結果保存到文件中? (如果是這樣,什麼是最好的選擇,parquet,avro,json,csv?)將它保存到數據庫?

基本上我不知道別人怎麼找到最舒適的一個類似棧工作。

回答

2

一旦數據被轉化或火花嘎吱作響,你可以考慮以下可視化的數據。

Apache zeppelin交互式數據分析。

另一種選擇是存儲星火輸出工作在ElasticSearch的結果,我們可以使用Kibana可視化。