2017-06-27 252 views
0

哪一個是按照-方面的速度和性能的選項導出從蜂箱/ HDFS數據到SQL Server的目的之間更好的選擇。批量插入(BCP)到SQL Server VS Sqoop導出到SQL Server

1)使用Sqoop導出工具來連接到RDBMS(SQL服務器)並直接導出數據。

2)使用HIVE使用INSERT OVERWRITE LOCAL DIRECTORY命令,然後在這些CSV文件執行BCP(或大容量插入查詢),以將數據放入SQL服務器的數據庫轉儲CSV文件。

或者, 是否有其他更好的選擇?

回答

1

以我的經驗,我用bcp每當我可以。這是從我可以告訴最快的方式到數據庫的鳥槍數據庫,並且可以在(有點)細粒度級別上配置。

幾件事情要考慮:

  1. 使用臨時表。沒有主鍵,沒有索引,只是原始數據。
  2. 有一個「整合」進程內加載後四處移動數據。
  3. 使用約5000一排大小啓動,但如果性能是最令人關注的,然後進行測試。
  4. 確保您提高超時。