Spark SQL「Limit」

2017-02-28 150 views 2 likes

Env：spark 1.6使用Hadoop。 Hortonworks數據平臺2.5Spark SQL「Limit」

我有一個表有100億條記錄，我想獲得3億條記錄並將它們移動到一個臨時表。

sqlContext.sql("select ....from my_table limit 300000000").repartition(50) 
.write.saveAsTable("temporary_table")

我看到限制關鍵字實際上使火花只使用一個執行者！這意味着將3億條記錄移動到一個節點並將其寫回Hadoop。我怎樣才能避免這種減少，但仍然有多個執行者只有3億條記錄。我希望所有節點寫入hadoop。

抽樣可以幫助我嗎？如果是這樣如何？

來源

2017-02-28 David H

它無論哪個記錄？如果不是，那麼你可以使用示例函數 –

回答

採樣可用於以下方面： -

select ....from my_table TABLESAMPLE(.3 PERCENT)

或

select ....from my_table TABLESAMPLE(30M ROWS)

來源

2017-02-28 18:08:33

「Hive還支持按行計數限制輸入......用戶給出的行計數應用於每個分割，因此總行數可以根據輸入分割的數量而變化......例如，以下查詢將從每個輸入分割中取前10行...'SELECT * FROM source TABLESAMPLE（10 ROWS）;'「https://cwiki.apache.org/confluence/display/Hive/LanguageManual+採樣 –

'TABLESAMPLE（... PERCENT）'是一個很好的解決方案，'TABLESAMPLE（... ROWS）'不是。後者將使用OP試圖避免的相同'CollectLimit'操作。 – zero323

我會嘗試。 –

相關問題

1. spark-cassandra-connector per partition limit
2. SQL LIMIT返回比LIMIT更多的值
3. LIMIT在UPDATE SQL查詢
4. 簡單的SQL語句LIMIT
5. SQL LIMIT與WHERE子句
6. PHP SQL分頁LIMIT子句
7. PDO fetchColumn（）忽略SQL「LIMIT」？
8. SQL（ORACLE）：ORDER BY and LIMIT
9. SQL LIMIT語法錯誤
10. limit命令的SQL Server

11. 問題與AVG和LIMIT SQL
12. SQL LIMIT，但從結尾
13. SQL LIMIT多個查詢
14. SQL語法錯誤'LIMIT 0，10'
15. SQL服務器OFFSET和LIMIT
16. MySQL的LIMIT在SQL Server中
17. Spark沒有Spark SQL的HCatalog
18. KeyError：u'x-rate-limit-limit'
19. Spark SQL Schema
20. SPARK SQL GROUPING SETS
21. Apache Spark SQL NumberFormatException
22. Spark SQL中的SQL LIKE
23. Spark SQL - SQL腳本處理
24. Spark SQL中的SQL宏
25. 使用Apache Spark/Spark SQL加入文件
26. Spark 1.4：Spark SQL ANY和所有函數
27. spark將spark-SQL轉換爲RDD API
28. sum MADlib UDF Spark SQL
29. Skip/Take with Spark SQL
30. Spark-SQl DataFrame分區