2016-01-19 125 views
0

實木複合地板文件使得OLAP查詢更快地導致柱狀格式,但另一方面datalake被複制(原始數據+實木複合地板數據)。 即使實木複合地板可以被壓縮,你不覺得重複所有的數據會花費很多嗎?實木複合地板和數據複製

回答

0

這取決於你的用例。如果由於各種原因需要數據,可能需要複製,例如用於分級數據和查詢。

實木複合地板最適合查詢,尤其是OLAP查詢,它經常只涉及某一列。同時,寫入Parquet文件比其他文件需要更多時間。

總之,如果兩個數據都是OLAP查詢的目標,則可能需要考慮僅使用Parquet版本的文件。

請參閱此文檔以供參考。 http://www.slideshare.net/StampedeCon/choosing-an-hdfs-data-storage-format-avro-vs-parquet-and-more-stampedecon-2015?qid=697d8f63-e6d8-4db1-951d-0f6f3b170ad1&v=default&b=&from_search=2