0
我正在處理大數據項目。我們使用flume從sftp下載文件到HDFS。 然後,我們配置了3個代理。他們從相同的來源閱讀。結果,我們得到3個重複的文件到HDFS中,這是不好的。而我們必須只有一個文件。但是,我們需要保持已處理文件的可追溯性,並管理代理之間的併發性。例如,我們有3個主要代理A1,A2和A3。如果文件xxx.csv由代理A2處理或處理。其他人不會處理它,並會查找未處理的文件。所以,每個文件只能由一個Agent處理。如何管理水槽代理之間的併發性。
有沒有人在類似的問題上工作?
你使用什麼類型的來源? – gorros