我在我的項目中有要求。我必須使用水槽收集日誌數據,並且必須將數據輸入到配置單元表中。使用水槽將水槽記錄到水槽所需的格式
在這裏我的要求收集放在一個文件夾中的文件到hdfs中,我正在使用spooldir。 之後,我需要處理這些文件,並將輸出放置在配置單元文件夾中,以便立即查詢數據。
我可以使用接收器處理源文件,以便放置在hdfs中的數據已經處理成所需的格式。
感謝, Sathish所在
我在我的項目中有要求。我必須使用水槽收集日誌數據,並且必須將數據輸入到配置單元表中。使用水槽將水槽記錄到水槽所需的格式
在這裏我的要求收集放在一個文件夾中的文件到hdfs中,我正在使用spooldir。 之後,我需要處理這些文件,並將輸出放置在配置單元文件夾中,以便立即查詢數據。
我可以使用接收器處理源文件,以便放置在hdfs中的數據已經處理成所需的格式。
感謝, Sathish所在
使用下面的配置已經達到了我的目的。
source.type = spooldir source.spooldir = $ {}位置
是的,你需要使用串行器(實現這個類 - http://flume.apache.org/releases/content/1.2.0/apidocs/org/apache/flume/serialization/EventSerializer.html),把它放到plugin.d /然後將其添加爲HDFS水槽的配置。
其實我已經做了非常類似的東西,並決定分享我所經歷的旅程。希望你能在那裏找到有用的東西。這是一個完整的例子,所有的細節公開,並與GitHub代碼
http://www.lopakalogic.com/articles/hadoop-articles/log-files-flume-hive/