2016-11-18 54 views
0

如何增量數據加載到一個分區蜂巢表Sqoop增量裝載到分區蜂巢表

我已經表「用戶」有以下的列,我已經根據created_on場創建蜂巢分區

id bigint, 
name string, 
created_on string(yyyy-MM-dd), 
updated_on string 

我創建了一個sqoop工作要導入增量基於最後修改日期

sqoop job --create users -- import --connect jdbc:mysql://<ip>/product --driver com.mysql.jdbc.Driver --username <> -P --table users --incremental lastmodified --check-column updated_on --last-value "2016-11-15"--hive-table users --hive-import --hive-partition-key created_on --hive-partition-value "2016-11-15" --m 1 

如果您遵守上述工作,這將獲取基於上次modifi ED值,將其插入錯誤的分區

有沒有解決有關此問題

回答

0

你在一個分區加載1列,並希望編寫一個基於不同的列?這只是'不匹配'。

該解決方案似乎是使負載和分區排隊。

所以如果你想寫所有記錄與created_on等於2016-11-15,那麼也請確保加載在這些記錄。 (我想你不應該在這種情況下使用標準增量功能)。