如何優化Sqoop導入？

2016-10-05 76 views 2 likes

可以用來優化sqoop導入的技術有哪些？我曾嘗試使用按列拆分來啓用並行性，並根據表的數據量增加了映射器的數量。從FIFO改爲Fair Scheduler會有幫助嗎？提前致謝！如何優化Sqoop導入？

sqoop import -D mapred.job.queue.name=$queuename -D mapred.job.name=$table_SQOOP_INITIAL_LOAD -D java.security.egd=file:/dev/../dev/urandom -D mapred.child.java.opts=" -Djava.security.egd=file:/dev/../dev/urandom" --driver com.teradata.jdbc.TeraDriver --connect jdbc:teradata://${sqoopSourceServer}/DATABASE=${sqoopSchema} --username ${sqoopUsername} --password ${sqoopPassword} --hive-import --hive-overwrite --hive-drop-import-delims --null-string '\\N' --null-non-string '\\N' --table "$table" --num-mappers 50 --split-by column --target-dir ${hdfsTargetDirectory}$table --hive-table ${hive_database}.$table

來源

2016-10-05 Holmes

選中此http://www.xmsxmx.com/performance-tuning-data-load-into-hadoop-with-sqoop/ – BruceWayne

回答

我還沒有嘗試過，但我在書本上讀過
對於某些數據庫，你可以通過使用--direct 參數利用直接模式：

sqoop import \ 
--connect jdbc:mysql://mysql.example.com/sqoop \ 
--username sqoop \ 
--table cities \ 
--direct

希望這幫助

來源

2016-10-06 12:38:06 Bhavesh

謝謝Bhavesh！你是對的。但是，我認爲它的供應商具體。 – Holmes

如果你喜歡我的回答投票:) – Bhavesh

下面是Sqoop的一些常見性能改進技術

分通過和邊界查詢
直接
取尺寸
NUM映射器

reference link

來源

2017-03-08 06:48:36 kumsgs

相關問題

1. 使用import-all-tables優化Sqoop數據從MySQL導入到Hive
2. Sqoop Hive導入
3. 導入在sqoop
4. Sqoop-Hive導入
5. Python：優化導入
6. Sqoop HBase導入：java.lang.NoSuchMethodError：org.apache.hadoop.hbase.HTableDescriptor.addFamily
7. Sqoop導入驗證
8. 導入數據Sqoop
9. Sqoop導入問題
10. 我們如何自動化SQOOP中的增量導入？

11. 如何自定義Sqoop從Mysql導入序列化到HBase？
12. Sqoop導入/導出問題
13. 如何將Sqoop導入表table1，table2，table3？
14. 如何解讀sqoop導入語句？
15. sqoop導入無法找到sqoop-1.4.6.jar
16. 優化PowerShell模塊導入
17. sqoop導入到蜂巢
18. sqoop無法導入表點
19. HBase sqoop導入凍結
20. Sqoop導入失敗，UnsupportedClassVersionError
21. sqoop導入錯誤蜂巢
22. sqoop導入顯示錯誤
23. Sqoop增量導入和CURRENT_TIMESTAMP
24. Sqoop導入Java客戶端
25. 的Apache Sqoop增量導入
26. Sqoop增量導入失敗
27. SQOOP：表導入錯誤
28. sqoop導入多個表格
29. Sqoop無法導入--as-parquetfile
30. 帶錢包的Sqoop導入