1
我正試圖在BigQuery中找到最佳的抽樣實踐。我的數據集相當大(11B行),但分佈趨於偏斜。到目前爲止,我一直在探索這兩個選項:RAND()如何在BigQuery中工作?
- HASHING - 在這裏我取一定值的哈希來選擇樣本。這是非常簡單的方法,背後的機制很明確。 我的問題是關於第二個選項:
- 使用RAND()函數。我明白如何通過查看這裏的BigQuery參考來使用它: https://cloud.google.com/bigquery/docs/reference/legacy-sql#rand 但是,我不知道該函數的工作原理。
任何人都可以在背景中發現更多的光線嗎?
非常感謝, Gallory