我想從一個大表中獲取數據樣本,並希望確保稍後可以重複此操作。其他SQL允許使用set.seed(整數)或可重複(整數)命令設置種子來完成可重複採樣。但是,這在Presto中不適合我。這樣的命令不可用嗎?謝謝。如何使用Presto SQL獲得可重複的樣本?
0
A
回答
1
一種解決方案是,您可以通過添加隨機內容(例如UUID)的列(或創建視圖)來模擬採樣,然後通過在此列上過濾來選擇行(例如,UUID以'1'結尾) )。您可以調整條件以獲取所需的樣本量。
按設計,結果是隨機的,也可以在多次運行中重複使用。
1
您可以創建與選定IDS一個簡單的中間表:
CREATE TABLE IF NOT EXISTS <temp1>
AS
SELECT <id_column>
FROM <tablename> TABLESAMPLE SYSTEM (10);
這將只包含採樣ID和將準備與感興趣的數據做JOIN
使用它在你的分析下游。
+0
謝謝你的回答。雖然這將起作用,因爲我正在處理非常大的數據集,所以我想避免連接。 – gchaks
相關問題
- 1. Presto/Python:如何使用python連接到AWS EMR上的Presto?
- 2. 可重複使用的android樣式?
- 3. Multy如何獲得Elasticsearch php的樣本?
- 4. 如何獲得使用CSS的Jelly Bean樣式文本字段?
- 5. 如何獲得可重複的文本字段的一個liferay7 Freemarker的
- 6. 如何在BigQuery Standard SQL中執行可重複採樣?
- 7. 您可以使用Spark SQL/Hive/Presto從Parquet/S3直接複製到Redshift嗎?
- 8. Google Drive/OAuth - 無法弄清楚如何獲得可重複使用的GoogleCredentials
- 9. 如何使用VLookup獲得重複值的總和
- 10. 如何使用ruby解析XML以獲得重複的標記?
- 11. 重複隨機抽樣SQL
- 12. 如何獲得iostat第二個樣本
- 13. 如何使用jquery獲得選項title =「樣本」
- 14. ANTLR3 - 如何獲得重複令牌
- 15. 如何獲得在重複控制
- 16. 如何獲得sagepay重複付款api
- 17. 如何獲得重複模式
- 18. 使用presto查詢本地實木複合地板
- 19. 使用Facebook presto-parser
- 20. 如何重複使用SQL子查詢?
- 21. 如何使用正則表達式獲得重複組?
- 22. 如何使用SDL同時獲得重複密鑰?
- 23. 如何捕獲重複的可選值
- 24. 如何獲得最大列使用SQL?
- 25. 獲得重複行的MySQL
- 26. 如何配置Presto
- 27. 如何獲得SQL
- 28. 如何獲得SQL
- 29. 如何獲得SQL
- 30. 如何獲得SQL
謝謝。這是一個很好的解決方法。 – gchaks