我正在使用Big Query進行測試。基本上我有50,000個文件,平均每個文件大小爲27MB。一些較大,一些較小。從Google雲端存儲加載到Big Query似乎很慢
定時上傳的每個檔案顯示:
真正0m49.868s 用戶0m0.297s SYS 0m0.173s
使用類似於:
時間BQ負載--encoding =「UTF -8" --field_delimiter = 「〜」 數據集GS://project/b_20130630_0003_1/20130630_0003_4565900000.tsv schema.json
運行命令: 「LS BQ -j」,並隨後運行 「BQ顯示-j」 揭示了我有任務執行過程中遇到
作業類型國家開始時間持續字節加工
加載失敗7月01日22點21分18秒0:00:00
錯誤:E採用錯誤。超過配額:每張表對於此表過多的進口數
檢查完數據庫後,行似乎已加載正常,這令人費解,因爲出現錯誤,我預計沒有任何內容會被加載。問題是,我真的不明白我是如何達到配額限制的,因爲我剛剛剛剛開始上傳文件 ,並認爲限制爲200,000個請求。
所有數據當前都在Google雲端存儲上,所以我期望數據加載的發生相當快,因爲雲存儲和Big Query之間的交互都在雲端。
按我的計算,整個負荷將會是:(50,000 * 49秒)28天。
有點希望這些數字是錯的。
謝謝。
回頭仔細閱讀BQ命令行實用程序幫助。看來我正在將每個文件作爲單獨的加載作業加載。我認爲這是造成這個問題的原因。對於我來說,你可以使用globbing而不是加載每個文件,即bq load --encoding =「UTF-8」--field_delimiter =「〜」數據集gs:// cs/b_20130630_0003_1/* schema.json。注意通配符。將嘗試使用最多10,000個文件執行加載作業。 – richjcooper
我很想知道這究竟是什麼!那是一個瘋狂的文件數量 –