2014-02-27 21 views
0

我們有兩種類型的日誌:預處理和攝取數據中的Hadoop

1)會話日誌:SESSION_ID,USER_ID,START_DATE_TIME,END_DATE_TIME

2)事件日誌:SESSION_ID,DATE_TIME,X,Y,Z

我們只需要存儲事件日誌,但想用其相應的USER_ID替換SESSION_ID。我們應該使用哪些技術(即Flume?)將數據存儲在HDFS中?

謝謝!

回答

0

是Flume可用於將日誌文件移動到HDFS。

要使用USER_ID替換SESSION_ID - 你可以:

爲此,使用Shell腳本 - 而產生「修改的事件日誌文件」 - 這是水槽將回升。這將是最簡單的方法。