我是Flume的新用戶,請把我當作絕對noob。我正在爲一個特定用例配置Flume這個小問題,並希望你能提供幫助。請注意,我沒有使用HDFS,這就是爲什麼這個問題與您在論壇上看到的其他問題不同。Apache Flume - 只發送新文件內容
我有兩臺虛擬機(VM)通過Oracle Virtual Box上的內部網絡相互連接。我的目標是讓一個虛擬機監視一個只有一個文件的特定目錄。當文件改變時,我希望Flume只發送新的行/數據。我希望其他虛擬機接收這些數據並將數據更新/連接到一個特定目錄中的單個文件。
到目前爲止,我有這個過程非常接近工作。每當在VM1中進行更改時,都會在VM2上進行更新。但是,VM1上的整個文件每次都發送到VM2,而不是新行。例如,如果我寫「測試1」,然後過了一會兒底下寫了「Test2的」關於VM1文件,對VM2輸出將是:
Test1的
Test1的
的Test2
我想看到的是:
Test1
Test2
我不知道如何實現這一點,透後我這封電子郵件是檢查水槽用戶指南documentatio n和大多數相關的文章在stackoverflow/stackexchange上。以下是目前的配置(它們以我上面提到的方式工作)供您參考。
我意識到另一個解決辦法是繼續VM1配置和覆蓋檢測到新的內容上VM2每次文件。但是,我也不確定如何實現這一點。
您可以提供的任何援助非常感謝!
請忽略我的代碼中的一些評論,我正在嘗試。忘了那裏:) –
我現在想,我也可以通過定期刪除最終目錄中的文件來解決這個問題。 –
作爲另一種可能的解決方法,我正在考慮使用假脫機目錄源和file_roll接收器將目標目錄附加到代理,同時file_roll的目標是相同的目錄。通過這種方式,我將基本上執行刷新操作,因爲假脫機目錄源允許您在將文件讀入通道後刪除文件。 –