2015-10-27 74 views
5

我想知道Google BigQuery目前是否支持Parquet file format或者是否有計劃支持它?Google BigQuery支持Parquet文件格式嗎?

我知道它目前支持CSV和JSON格式。

+0

感謝您的請求。我已經打開了添加Parquet的功能請求。請在那裏添加你的用例。它將幫助我們評估外部興趣。這裏是:https://code.google.com/p/google-bigquery/issues/detail?id=355&thanks=355&ts=1446053772 –

回答

6

** 截至2018年3月1日,支持loading Parquet files可用。

使用BigQuery CLI的2.0.24版本,有--source_format PARQUET選項,在bq --help的輸出中描述了該選項。

如果我嘗試在我的項目中使用它,但是出現錯誤。根據閱讀鏈接的BigQuery票據,支持加載Parquet似乎目前僅限邀請。

% bq load --source_format PARQUET test.test3 data.avro.parquet schema.json Upload complete. Waiting on bqjob_r5b8a2b16d964eef7_0000015b0690a06a_1 ... (0s) Current status: DONE
BigQuery error in load operation: Error processing job 'msgqegcp:bqjob_r5b8a2b16d964eef7_0000015b0690a06a_1': Loading of parquet file format is not enabled

我用例是,平面文件是Avro的文件的一半大小。我想嘗試新的東西並有效地上傳數據(按此順序)。

+0

你說的錯誤「未啓用」。在這個問題https://issuetracker.google.com/issues/35905411我看到提到的項目被啓用來使用它。也許這只是「beta」功能的問題,需要啓用您的實驗。 –

1

此時BigQuery不支持Parquet文件格式。但是,我們有興趣瞭解更多關於您的使用案例的信息 - 您是否對進口,出口或兩者感興趣?你打算如何使用它?更好地理解場景將有助於BigQuery團隊相應地進行規劃。

+0

感謝您的快速響應!目前我沒有任何具體的用例。我們目前將CSV文件導入到BigQuery中,我想知道如果我們將格式更改爲Parquet,它是否仍然有效。 將文件存儲在Parquet或ORC中將使我們能夠靈活地以比CSV文件更快的方式分析Hadoop中的文件。 – YABADABADOU

1

如果要在BigQuery和Hadoop之間共享文件格式,可以使用換行符分隔的JSON記錄。

BigQuery支持這些導入和導出。

Hadoop也支持這個功能。搜索互聯網發現許多點擊顯示食譜使其工作。以下是一個:Processing JSON using java Mapreduce

0

當您處理數以億計的行並需要將數據移動到內部部署的Hadoop集羣時,這是從bigQuery導出的,json只是不可行的選項,沒有太多更好的選擇,唯一有效的選項今天對於這樣的數據移動是gz,不幸的是它不可能在Hadoop中本地讀取,Larquet是這種用例唯一有效的方式,我們沒有任何其他高效的選項