2016-11-18 55 views
0

閱讀了關於各種數據格式的信息之後,似乎可以看出Apache Avro似乎是一個不錯的選擇,因爲它是可拆分的容器格式。使用Hadoop進行未來大數據分析的數據格式

這樣就可以在HDFS存儲這樣的Avro的文件可能是這個樣子:

{ 
    Header 
    Message1 
    Message2 
    Message3 
    .... 
} 

(這些消息表示從物聯網設備的一些原始數據)

的Hadoop然後能處理Message1-3在不同的節點上並行(至少這是我想象這)

現在我的問題:我可以只使用任何格式的信息,甚至非分裂型的人因爲如Protobuf還是不知道如何使用Avro(可拆分)爲消息本身?這樣做有什麼好處嗎? 你有什麼經驗?

編輯:現在還沒有具體的情景,可以從原始數據中獲得什麼見解。該系統現在應該存儲原始數據,並且分析可能會在一兩年內完成。我只想擁有一個將來可以使用的解決方案。

回答

-2

阿夫羅格式存儲JSON格式的數據模式因此,在鍵 - 值對的術語和在數據的實際存儲它存儲它們作爲串行化的原始二進制格式的條款。因此,就工作而言,如果您的應用程序需要具有可分割和序列化存儲要求的大型數據集,則可以使用它。如果你的應用程序是更多的統計計算密集型,你可以去ORC2或實木複合地板。請詳細說明您的用例以根據您的要求來回答。

+0

你menttion「的Avro格式存儲JSON格式的數據」略高於混亂。其中,因爲它僅僅是存儲在JSON和數據在緊湊的二進制表示的Avro架構(以便有每個值沒有任何開銷,當數據被寫入)。 –