我一直覺得,如果您在某一列上執行COUNT(DISTINCT xyz)
,那麼它將等於GROUP BY
該列的常規計數。BigQuery count distinct ColX不等於ColX組的計數
然而,當我這樣做了BigQuery中的一個非常大的數據集,具有完全相同的條件下,它顯示在結果的較大差異:
Query Type Count
----------------------------------
- count(distinct ColX) > 7 million
- count(ColX)
... GROUP BY ColX ~ 6.5 million
這是爲什麼?我認爲在列中計算唯一值的這兩個不同版本應該返回相同的計數結果是錯誤的嗎?
非常有意義。對所有使用該數據庫的數據庫,「DISTINCT」是一個統計近似值?或者這只是一個大問題? – Kristian
只是一個BigQuery的東西。 – Pentium10