0
我們有兩種類型的日誌:預處理和攝取數據中的Hadoop
1)會話日誌:SESSION_ID,USER_ID,START_DATE_TIME,END_DATE_TIME
2)事件日誌:SESSION_ID,DATE_TIME,X,Y,Z
我們只需要存儲事件日誌,但想用其相應的USER_ID替換SESSION_ID。我們應該使用哪些技術(即Flume?)將數據存儲在HDFS中?
謝謝!
我們有兩種類型的日誌:預處理和攝取數據中的Hadoop
1)會話日誌:SESSION_ID,USER_ID,START_DATE_TIME,END_DATE_TIME
2)事件日誌:SESSION_ID,DATE_TIME,X,Y,Z
我們只需要存儲事件日誌,但想用其相應的USER_ID替換SESSION_ID。我們應該使用哪些技術(即Flume?)將數據存儲在HDFS中?
謝謝!
是Flume可用於將日誌文件移動到HDFS。
要使用USER_ID替換SESSION_ID - 你可以:
爲此,使用Shell腳本 - 而產生「修改的事件日誌文件」 - 這是水槽將回升。這將是最簡單的方法。