2017-06-08 82 views
0

我有一個遠程服務器生成文件。服務器將文件每15分鐘推送到hadoop羣集。這些文件存儲在一個特定的目錄中。我們使用flume從本地目錄讀取文件並將它們發送到HDFS。但是,SpoolDir適合處理數據。Spooldir源碼停止處理

問題是當文件被寫入目錄時flume關閉處理。
我不知道如何使flume spooldir wait完成寫入文件,然後處理它。 或者如何使用腳本外殼或處理器在完全寫入之前阻止讀取文件。

有人可以幫助我!

回答

0

設置假脫機源的pollDelay屬性。 假脫機源目錄在給定目錄中以特定間隔輪詢新文件。 默認值是500ms。 對於很多系統來說這太快了,所以你應該相應地配置它。