2015-12-12 69 views
0

我們需要增量運行HiveQL並將結果導出到avro fromat中的文件,並且我們需要導出記錄。導出配置單元數據增量

以下是我看到的兩種方式以及我在使用它們時看到的挑戰。

選項1:使用豬和客戶裝載機: a。編寫運行配置單元查詢incemental的自定義pig loader。 b。編寫一個pig flow並創建一個與配置單元加載器結果的關係。 c。將結果保存在avro文件中。

選項2. SQOOP導出 - 我無法找到爲什麼以增量方式導出配置單元查詢結果。

到目前爲止,我認爲使用選項1會更好地滿足我的要求。

有人能解釋一下,如果你認爲我們可以在sqoop中輕鬆達到這個目的嗎?

回答

0

Sqoop可以將數據從HDFS目錄導出到目標數據庫,而不是文件。在這種情況下sqoop不能

  1. 讀增量的結果,除非你有獨立的蜂巢表或分區(這會導致新目錄)
  2. 寫成的Avro格式的外部文件。
+0

謝謝!你有沒有看到其他方法來達到我的要求? – user2545449

相關問題