2
我有一個有近10億行的Amazon Redshift表,並且想隨機抽取100000個樣本。我已經嘗試了查詢幾乎完全相同在Amazon Redshift中生成可重複隨機樣本的最快方法是什麼?
select BrowserId,
from PageViews pv
group by BrowserId
order by md5('seed' || BrowserId)
limit 100000;
描述here,但它走的是兩條或更多的時間來運行,因爲排序操作占主導地位的拉動。
你在哪裏運行該查詢? – error2007s
我正在通過命令行在它自己的架構中的PageViews表的等價物上運行它。 –
下面是一些其他數據庫的建議檢查他們,如果他們可以幫助您https://www.periscopedata.com/blog/how-to-sample-rows-in-sql-273x-faster.html – error2007s