2015-01-07 99 views
3

自從我有機會參與熊貓GBQ模塊的工作已經有一段時間了,但我注意到我們的一個迴歸測試失敗了。Google BigQuery請求太大

測試中的問題是:

https://github.com/pydata/pandas/blob/master/pandas/io/tests/test_gbq.py#L254-L267

總之,測試試圖創建與5列的表(類型爲布爾型,浮點,字符串,整數,時間戳),並且每個1000001行。以10,000行的塊形式插入這些行失敗,並顯示「Request Too Large」的響應。

我覺得這可能與Getting "Query too large" in BigQuery有類似的答案 - 但看到這個測試是如何工作的,我想知道是否有需要解決的後端問題。當我不在尋找時,API也可能發生改變!

TLDR版本:我們的插入過大,我們可以參考的文檔限制是什麼?

+0

什麼是您嘗試插入的數據的大概字節大小? (每塊?) – Jabberwockey

回答

3

的記錄的限制在這裏:

https://cloud.google.com/bigquery/streaming-data-into-bigquery#quota

的TL; DR答案:雖然BQ不嚴格執行每500行要求的最大行/插入,此時,還有一些其他的限制API堆棧中與整體請求大小相關的其他地方阻止了調用的成功。

+0

是的 - 熊貓使用Big Query API進行流媒體上傳,甚至提到你可以根據大小獲取錯誤:http://pandas.pydata.org/pandas-docs/stable/generated/pandas.io .gbq.to_gbq.html?highlight = gbq#pandas.io.gbq.to_gbq – Jabberwockey

+0

我們瞭解編寫原始GBQ庫和相應文檔時的限制。這似乎很奇怪,以前通過的測試會突然出現問題。我一次特別關注這500行/插入。有趣的是,今天再次嘗試它(至少在一個好的月份裏第一次)。我想知道是否有更正。 –