什麼是通過Spark Streaming處理數據的長期存儲(很多寫入,很少讀取)的更好選擇:Parquet,HBase或Cassandra?或者是其他東西?什麼是取捨?存儲傳入流數據的最佳方式是什麼?
回答
以我的經驗,我們已經使用HBase的數據存儲作爲火花流數據(我們也有相同的情況下許多寫入和讀取數),因爲我們正在使用Hadoop,HBase的與Hadoop本地集成和效果還不錯..
上面我們已經tostore消息的高點擊率從安慰過來使用。
HBase非常適合做基於範圍的掃描。 Casandra以可用性和許多其他事物而聞名...
但是,我也可以在許多項目中觀察到一個大趨勢,他們只是通過火花流與火花將rawdata存儲在分區結構中的hdfs(parquet + avro)中與火花數據幀(
SaveMode.Append)
並且它們被處理RAWDATA
分區結構的例中HDFS: completion ofbusinessdate/environment/businesssubtype/message type
等.... 在這種情況下沒有必要爲要HBase的或任何其它數據存儲
但上述方法中的一個常見問題是當您通過流式傳輸時,您需要repartion(1
)或colelese
或FileUtils.copymerge
以滿足對單個分區文件的塊大小要求。除此之外,還可以。
一致性(所有節點看到在同一時間相同的數據)。
可用性(每個請求收到關於它是否成功或失敗的響應)。
分區公差(系統繼續 儘管任意分割操作,由於網絡故障)
卡桑德拉支持AP。
Hbase支持CP。
請看詳細分析,給出here
我的回答有用嗎?請隨時提問。謝謝! –
- 1. 存儲流式傳輸文本數據的最佳方式
- 2. 什麼是存儲我的2D數據的最佳方式
- 3. 什麼是存儲視頻流的最佳方式?
- 4. 什麼是存儲文本數據的最佳方式?
- 5. 什麼是存儲臨時數據的最佳方式?
- 6. 什麼是存儲趨勢數據的最佳方式?
- 7. 什麼是存儲這些數據的最佳方式?
- 8. 在Docker中存儲數據的最佳方式是什麼?
- 9. 什麼是存儲此類數據的最佳方式?
- 10. 存儲數據以使用jQuery的最佳方式是什麼?
- 11. 什麼是存儲站點配置數據的最佳方式?
- 12. 存儲遊戲數據的最佳方式是什麼?
- 13. 在iPhone上存儲數據的最佳方式是什麼?
- 14. 什麼是存儲簡單空間數據的最佳方式
- 15. 存儲此數據結構的最佳方式是什麼?
- 16. 本地存儲數據的最佳方式是什麼(IOS - xcode)
- 17. 什麼是存儲思維導圖數據的最佳方式?
- 18. 存儲增量下載數據的最佳方式是什麼?
- 19. 什麼是存儲傳送帶圖像的最佳方式?
- 20. 當前流式傳輸視頻的最佳方式是什麼?
- 21. 聚合來自NDB數據存儲的數據的最佳方式是什麼?
- 22. 在mysql數據庫中存儲html數據的最佳方式是什麼?
- 23. 使用Hibernate存儲數組的最佳方式是什麼?
- 24. 什麼是存儲持久對象數組的最佳方式?
- 25. 什麼是javacard數據存儲的最佳解決方案?
- 26. 存儲「塗鴉」數據的最佳方法是什麼?
- 27. 在數據庫中存儲IP的最佳方法是什麼?
- 28. 存儲餐廳checkin count數據的最佳方法是什麼?
- 29. iphone-存儲數據的最佳方式
- 30. 存儲數據的最佳方式
我會建議都因爲它具有數據庫功能和中alll數據庫它擁有最快寫入卡桑德拉。 –
請檢查我的答案。希望這會有所幫助! –