2013-05-21 220 views
0

我有一張擁有16億行的表格。我一直在運行一個查詢,該查詢使用具有超過500萬個唯一值的分組字段,然後按降序排列另一個整數值的總和,最後只返回前10個。通知超過一個小時後,該查詢是仍然處於運行狀態。BigQuery的查詢速度非常慢

我用「bq cp -a」創建了這個大表。最初這些源表是來自1000個較小表的「bq cp」,每個表都從12個壓縮的csv加載文件加載。

我已經搜查了相關的問題,發現「Google BigQuery is running queries slowly」提到由於大量小量攝入而導致碎片化引起的緩慢。在攝入過程中,我的數據問題方法是否被認爲是「數據位太小」,導致碎片化?

有可能500萬個唯一值太多,這是響應緩慢的根本原因嗎?

回答

0

昨天我們有一個延遲峯值,今天有一個較小的延遲。你可以給項目ID +查詢作業的工作ID花費比預期更長的時間嗎?

+0

它在2小時10分鐘後完成。 Hproject id + jobid:atbflow:job_7c07ccb9417a4b34b241ffc2636e234c,開始時間:5月21日11:22:14,持續時間:2:10:03,處理的字節數:63015028495 –

+0

看起來您可能在臨時查詢減速期間運行了此操作。我剛剛運行了您的查詢,並在11秒內完成。如果你看到任何進一步的問題,你能告訴我嗎? –