Q

如何管理水槽代理之間的併發性。

2017-06-15 47 views 0 likes

0

我正在處理大數據項目。我們使用flume從sftp下載文件到HDFS。然後，我們配置了3個代理。他們從相同的來源閱讀。結果，我們得到3個重複的文件到HDFS中，這是不好的。而我們必須只有一個文件。但是，我們需要保持已處理文件的可追溯性，並管理代理之間的併發性。例如，我們有3個主要代理A1，A2和A3。如果文件xxx.csv由代理A2處理或處理。其他人不會處理它，並會查找未處理的文件。所以，每個文件只能由一個Agent處理。如何管理水槽代理之間的併發性。

有沒有人在類似的問題上工作？

2017-06-15 Chayma Sakouhi

+0

你使用什麼類型的來源？ – gorros

A

回答

1

您可以使用load balancing sink processor有一個源和3個接收器。

2017-06-23 09:58:31 gorros

相關問題