根據我的理解,sqoop用於將數據庫中的表/數據導入或導出到HDFS或Hive或HBASE。什麼是sqoop中的直接模式?
而且我們可以直接導入一張表或一張表的列表。內部mapreduce程序(我認爲只有地圖任務)將運行。
我的疑問是什麼是sqoop直接和什麼時候與sqoop直接選項?
根據我的理解,sqoop用於將數據庫中的表/數據導入或導出到HDFS或Hive或HBASE。什麼是sqoop中的直接模式?
而且我們可以直接導入一張表或一張表的列表。內部mapreduce程序(我認爲只有地圖任務)將運行。
我的疑問是什麼是sqoop直接和什麼時候與sqoop直接選項?
--direct
- 使用直接進口快速路徑
By supplying the --direct
argument,你指定Sqoop應該嘗試直接進口渠道。該通道可能比使用JDBC更高的性能。
對於MySQL:
MySQL的直接連接器允許更快的導入和導出/從MySQL使用mysqldump
和mysqlimport
工具的功能,而不是SQL選擇和插入。與每個特定的RDBMS,安裝要求,可用選項和限制使用的直接模式
找到剛纔看了Sqoop文檔!
有些數據庫可以通過使用特定於數據庫的數據遷移工具更高性能的時尚 執行進口( ...)
部分數據庫提供了直接模式 出口以及 (...)有關使用與每一個具體的RDBMS,安裝要求,可用選項和限制直接模式
詳細信息可以在第25
底線:「直接模式」意思是針對不同數據庫的不同事物。
對於MySQL或PostgreSQL,它涉及批量加載器/卸載器實用程序(即完全繞過JDBC);而對於Oracle而言,它涉及到「直接路徑INSERT」,即與JDBC相關,但是處於非事務性模式(因此,您最好使用臨時表,否則最終可能會在PK和損壞的表中出現重複項)。
您可以通過給在sqoop
--direct
選項提高性能,但不使用它的非優先工作作爲直接的更多使用可搞垮源/目標DB
http://archive.cloudera.com/docs-backup/sqoop/_direct_mode_imports.html
爲了簡潔和準確,它的快速導入模式不運行任何映射器或縮減器。
sqoop import --connect jdbc:mysql://db.foo.com/corp --table EMPLOYEES --direct
注:
--direct
只在MySQL和PostgreSQL的支持。BLOB
,CLOB
或LONGVARBINARY
列。
注1不正確。直接模式也支持Netezza Connectorfor v1.4.4 +。 [文檔參考](https://sqoop.apache.org/docs/1.4.4/SqoopUserGuide.html#_direct_mode) – kasur