2
我正在使用bq命令行並試圖每天在一個表中插入大量的json文件。BigQuery快速插入數百萬行的方法
我的方法:
- 列表中的所有文件,以推動(日期命名YYYMMDDHHMM.meta1.meta2.json)
- 串連在同一天的文件=> YYYMMDD.ndjson
- 分裂YYYMMDD。 ndjson文件(500行文件的每個)YYYMMDD.ndjson_splittedij
遍歷YYYMMDD.ndjson_splittedij並運行
bq insert --template_suffix=20160331 --dataset_id=MYDATASET TEMPLATE YYYMMDD.ndjson_splittedij
此方法有效。我只是想知道是否有可能改進它。
我們每天必須有1張桌子:)。似乎負載工作的配額是每天1000。 –
是的,但想象一下1000 * 5TB意味着5PB。您是否認真想在同一天獲得這些數據? – Pentium10
誤會。系統L每天在文件夾B中生成大約30 000個文件。從B腳本S生成的文件與屬於文件夾B中的文件相同D. D可能包含數百萬個文件。我們的目標是在儘快將它們發送到BQ之前將它們整合起來。 –