2016-07-22 30 views
0

需要Sqoop和TDCH-Teradata Connector for Hadoop之間的詳細區別。推薦Teradata作爲源和hadoop作爲目標? 我們需要實現不同類型的像增量,歷史負荷和追加sqoop和TDCH之間的區別

+1

Teradata連接器支持JDBC FastLoad/FastExport,它至少可能會超出通用Sqoop連接器。 – Andrew

回答

0

的Teradata不必須的概念主鍵的,而不是他們使用的主要指數(PI)或唯一的主索引(UPI)和它們用於在TD安培數據分發目的

所以,當你使用sqoop與我們將不會利用TD能力fastexport實用程序。

在sqoop即使如果您提及50名映射器與-m參數,當數據導出到HDFS中的所有數據將駐留在一個單一的部分文件。

所以爲了利用TD和HDFS發行版,我們必須在將數據從TD導出到HDFS時使用TDCH jar。

0

TDCH支持蜂巢,HCatalog,但不支持所有的文件格式:只支持文本文件,SequenceFile和RCFile。

現在,幾乎所有的Hadoop發行版已經加入sqoop Teradata連接,所以你可以使用所有的功能sqoop(增量,歷史,追加等)TDCH不支持:

cloudera-connector-for-teradata

hwx-connector-for-teradata

four-step-strategy-incremental-updates-hive

MapR-teradata-connector-hadoop-yarn

IBM - biginsights

編輯:刪除從原來的答案這條線按Dev的輸入:

爲Teradata源,你必須使用TDCH,sqoop並不沒有爲Teradata的直接支持。

+0

Apache Sqoop直接支持Teradata。您需要爲其他RDBMS添加JDBC jar。 –

+0

但我們不需要像這樣的連接管理器 - http://dba.stackexchange.com/questions/76555/problem-while-connecting-to-teradata-with-sqoop?我指的是這個doc-https://sqoop.apache.org/docs/1.4.1-incubating/SqoopUserGuide.html#_supported_databases,指的是直接支持teradata。 –

+1

這適用於sqoop 1.4.6 - 'sqoop export -Dsqoop.export.records.per.statement = 1 --connect'jdbc:teradata://xxx.xxx.xxx.xxx/DBS_PORT=1025,DATABASE=ds_tbl_db '--driver com.teradata.jdbc.TeraDriver --username xxx --password xxx --table hive_01 --export-dir

--input-fields-terminated-by'\ 001'--input-null-string' \\ N'--input-null-non-string'\\ N'-m 2' –