2013-04-13 115 views
1

我有一個約5M行的表格。注意這只是一個poc。最終我們需要在結核病範圍內。我正在進行自我加入,以便找到產品的排列以進行購物籃分析。BigQuery - 隨機錯誤

我需要找出籃子中出現組合的次數,出現次數與籃子總數的比率,以及出現在所有籃子中的出現次數。這是非常標準的。 BigQuery不支持在另一個select的謂詞中進行選擇,因此我需要創建另一個連接。以下是我想出了 -

select twoItem.upc1,twoItem.upc2,twoItem.twoItemOccurrences, totalUpc.totalUpcCount 
from 
(
    select purchase1.upc as upc1,purchase2.upc as upc2,count(upc1) as twoItemOccurrences 
    from 
    conagra.purchase as purchase1 
    join each conagra.purchase as purchase2 
    on purchase1.upc = purchase2.upc 
    group by upc1,upc2 
) as twoItem 
JOIN EACH 
(
    select purchase3.upc as upc3, count(*) as totalUpcCount 
    from conagra.purchase as purchase3 
    group by upc3 
) as totalUpc 
on totalUpc.upc3 = twoItem.upc1 
LIMIT 50; 

我得到以下錯誤:

SHUFFLE BY may only be applied to parallelizable queries, but query is not parallelizable: (SELECT * FROM (SELECT [purchase3.upc] AS [upc3], COUNT(*) AS [totalUpcCount]...

也許未發表的限制嗎?

任何幫助,將不勝感激。

回答

1

嘗試在你的內部查詢中運行這些與​​。我們將改進此類查詢的響應消息。

+0

我有一個類似的查詢報告相同的錯誤。把我所有的'GROUP BY'變成'GROUP BY BY BY'沒有幫助。 @ michael-manoochehri你能分享可能造成這種情況的原因嗎? – Wei

+0

你能給我更多關於查詢類型的信息嗎? –

+0

我的查詢很長。看看這可以幫助你找到查詢: 資料集: 「_b4baa84cc768743eba28472b9c2ad40ecf37c576」 專案編號: 「876515819216」 TABLEID: 「anonfaff8cc9_a5fc_4421_8da0_02289266765b」。如果沒有,我可以發送確切的查詢給你。 – Wei