2017-10-10 68 views
0

試圖將BigQuery中的表格數據導出到Google雲端存儲中創建的存儲區。使用BigQuery多個通配符URI導出數據

當我將BigQuery中的表格導出到具有單通配符URI的GCS中時,它會自動將該表格分割爲多個分片文件(每個文件大約368 MB)並落在GCS中的指定存儲桶中。

下面是一個命令:

bq --nosync extract --destination_format=CSV '<bq table>' 'gs://<gcs_bucket>/*.csv' 

的文件大小和文件數量保持不變(每個文件圍繞368 MB),即使使用多個URI的:

bq --nosync extract --destination_format=CSV '<bq table>' 'gs://<gcs_bucket>/1-*.csv','gs://<gcs_bucket>/2-*.csv','gs://<gcs_bucket>/3-*.csv','gs://<gcs_bucket>/4-*.csv','gs://<gcs_bucket>/5-*.csv' 

我試圖找出如何使用多個URI選項來減小文件大小。

回答

1

我相信BigQuery並沒有對生成的文件大小提供任何保證,所以你觀察的是正確的:文件大小可能沒有區別,有或沒有指定多個通配符URI。

多通配符URI的常見用例是告訴BigQuery將輸出文件均勻分佈到N個模式中,以便您可以將每個輸出URI模式提供給下游工作者。