2015-06-07 35 views
2

我有一個API,它以xml格式返回數據。將API數據傳輸到通過Flume的hadoop

我想每天運行它並將返回的數據存儲在Hadoop中。通過建立水槽文件後丟失位。任何人都有從上面簡單的外部API通過flume /使用oozie調度它的簡單外部API提取數據的用例的端到端步驟?

目前,我已經創建了一個Java程序,它可以將數據提取出來,並將其放置在文件中,其格式爲:really_ddmmyyyyhhmmss.xml,隨後使用類似的命名製表符分隔的txt格式,以方便使用。我可以每天敲它,並在配置單元中創建外部表以指向文件的位置。對我來說看起來不像是優雅的解決方案。

回答