0
閱讀了關於各種數據格式的信息之後,似乎可以看出Apache Avro似乎是一個不錯的選擇,因爲它是可拆分的容器格式。使用Hadoop進行未來大數據分析的數據格式
這樣就可以在HDFS存儲這樣的Avro的文件可能是這個樣子:
{
Header
Message1
Message2
Message3
....
}
(這些消息表示從物聯網設備的一些原始數據)
的Hadoop然後能處理Message1-3在不同的節點上並行(至少這是我想象這)
現在我的問題:我可以只使用任何格式的信息,甚至非分裂型的人因爲如Protobuf還是不知道如何使用Avro(可拆分)爲消息本身?這樣做有什麼好處嗎? 你有什麼經驗?
編輯:現在還沒有具體的情景,可以從原始數據中獲得什麼見解。該系統現在應該存儲原始數據,並且分析可能會在一兩年內完成。我只想擁有一個將來可以使用的解決方案。
你menttion「的Avro格式存儲JSON格式的數據」略高於混亂。其中,因爲它僅僅是存儲在JSON和數據在緊湊的二進制表示的Avro架構(以便有每個值沒有任何開銷,當數據被寫入)。 –