2017-08-17 55 views
0

如何更新類似於MySQL表中數據的HDFS文件中的數據? 我查了一下互聯網,但所給的例子都是用- 增量最後修改的的例子。Sqoop增量導入和更新不起作用

在我的情況下,我的MySQL表不包含日期或時間戳列。 如何更新HDFS文件中的數據,類似於不包含日期列的MySQL表中的數據?

我有MySQL表如下

mysql> select * from employee; 
+----+--------+--------+------+-------+-----------+ 
| id | name | gender | age | state | language | 
+----+--------+--------+------+-------+-----------+ 
| 1 | user1 | m  | 25 | tn | tamil  | 
| 2 | user2 | m  | 41 | ka | tamil  | 
| 3 | user3 | f  | 47 | kl | tamil  | 
| 4 | user4 | f  | 52 | ap | telugu | 
| 5 | user5 | m  | 55 | ap | telugu | 
| 6 | user6 | f  | 43 | tn | tamil  | 
| 7 | user7 | m  | 34 | tn | malayalam | 
| 8 | user8 | f  | 33 | ap | telugu | 
| 9 | user9 | m  | 36 | ap | telugu | 

我使用下面的命令導入到HDFS。

[[email protected] ~]$ sqoop import --connect jdbc:mysql://localhost:3306/mydatabase --username root --table employee --as-textfile --target-dir hdfs://localhost.localdomain:8020/user/cloudera/data/employee 

數據按預期導入。

[[email protected] ~]$ hadoop fs -ls /user/cloudera/data/employee/ 
Found 6 items 
-rw-r--r-- 3 cloudera cloudera   0 2017-08-16 23:57 /user/cloudera/data/employee/_SUCCESS 
drwxr-xr-x - cloudera cloudera   0 2017-08-16 23:56 /user/cloudera/data/employee/_logs 
-rw-r--r-- 3 cloudera cloudera  112 2017-08-16 23:56 /user/cloudera/data/employee/part-m-00000 
-rw-r--r-- 3 cloudera cloudera  118 2017-08-16 23:56 /user/cloudera/data/employee/part-m-00001 
-rw-r--r-- 3 cloudera cloudera  132 2017-08-16 23:56 /user/cloudera/data/employee/part-m-00002 
-rw-r--r-- 3 cloudera cloudera  136 2017-08-16 23:56 /user/cloudera/data/employee/part-m-00003 

現在我更新了mysql表中的值和插入值。但是這個表格不包含日期列。

mysql> update employee set language = 'marathi' where id >= 8; 
mysql> insert into employee (name,gender,age,state,language from people) values('user11','f','25','kl','malayalam'); 

我知道新插入的值可以使用--check-column,incremental append和--last-value插入到hdfs中。

但是,如何更新hdfs中更新爲'marathi'的mysql錶行8和9的值?另外,我的員工表不包含日期或時間戳列。

回答

0

對於新插入的行,你可以隨時使用:

--incremental append --check-column id --last-value 9

但是從沒有的updated_at列的表獲取更新,我不認爲這就是可能的。如果你的桌子很小,那麼可能只是每次都做一次完整的轉儲。

或者,如果你以某種方式可以保持跟蹤什麼自去年進口的所有ID得到了更新,那麼讓我們說你知道IDS 7, 3, 4 and 8得到了更新,從去年導入,可以用最小更新的id和--last-value使用。所以,你的配置將是:

-- incremental append --check-column id --last-value 3 --merge-key id

其中--merge-key id會告訴老基於id列sqoop到merge新的增量數據。