Google BigQuery支持Parquet文件格式嗎？

我想知道Google BigQuery目前是否支持Parquet file format或者是否有計劃支持它？Google BigQuery支持Parquet文件格式嗎？

我知道它目前支持CSV和JSON格式。

2015-10-27 YABADABADOU

感謝您的請求。我已經打開了添加Parquet的功能請求。請在那裏添加你的用例。它將幫助我們評估外部興趣。這裏是：https://code.google.com/p/google-bigquery/issues/detail?id=355&thanks=355&ts=1446053772 –

** 截至2018年3月1日，支持loading Parquet files可用。

使用BigQuery CLI的2.0.24版本，有--source_format PARQUET選項，在bq --help的輸出中描述了該選項。

如果我嘗試在我的項目中使用它，但是出現錯誤。根據閱讀鏈接的BigQuery票據，支持加載Parquet似乎目前僅限邀請。

% bq load --source_format PARQUET test.test3 data.avro.parquet schema.json Upload complete. Waiting on bqjob_r5b8a2b16d964eef7_0000015b0690a06a_1 ... (0s) Current status: DONE BigQuery error in load operation: Error processing job 'msgqegcp:bqjob_r5b8a2b16d964eef7_0000015b0690a06a_1': Loading of parquet file format is not enabled

我用例是，平面文件是Avro的文件的一半大小。我想嘗試新的東西並有效地上傳數據（按此順序）。

來源

2017-03-25 17:47:39 user7610

你說的錯誤「未啓用」。在這個問題https://issuetracker.google.com/issues/35905411我看到提到的項目被啓用來使用它。也許這只是「beta」功能的問題，需要啓用您的實驗。 –

此時BigQuery不支持Parquet文件格式。但是，我們有興趣瞭解更多關於您的使用案例的信息 - 您是否對進口，出口或兩者感興趣？你打算如何使用它？更好地理解場景將有助於BigQuery團隊相應地進行規劃。

來源

2015-10-27 15:22:41

感謝您的快速響應！目前我沒有任何具體的用例。我們目前將CSV文件導入到BigQuery中，我想知道如果我們將格式更改爲Parquet，它是否仍然有效。將文件存儲在Parquet或ORC中將使我們能夠靈活地以比CSV文件更快的方式分析Hadoop中的文件。 – YABADABADOU

如果要在BigQuery和Hadoop之間共享文件格式，可以使用換行符分隔的JSON記錄。

BigQuery支持這些導入和導出。

Hadoop也支持這個功能。搜索互聯網發現許多點擊顯示食譜使其工作。以下是一個：Processing JSON using java Mapreduce

來源

2015-10-28 17:45:41

當您處理數以億計的行並需要將數據移動到內部部署的Hadoop集羣時，這是從bigQuery導出的，json只是不可行的選項，沒有太多更好的選擇，唯一有效的選項今天對於這樣的數據移動是gz，不幸的是它不可能在Hadoop中本地讀取，Larquet是這種用例唯一有效的方式，我們沒有任何其他高效的選項

來源

2018-02-15 06:36:39 user9363411

Google BigQuery支持Parquet文件格式嗎？

回答

相關問題