flume-ng

    0熱度

    1回答

    當我使用卡夫卡通道和卡夫卡一起沉沒在水槽同一時間,過了幾分鐘後,我得到這個例外 java.lang.IllegalStateException: close() called when transaction is OPEN - you must either commit or rollback first at com.google.common.base.Preconditio

    2熱度

    2回答

    我正在使用Flume收集推文並將它們存儲在HDFS上。 收集部分工作正常,我可以在我的文件系統中找到我的所有推文。 現在我想在一個文件中提取所有這些推文。 的問題是,不同的鳴叫存儲如下: 正如我們所看到的,微博都存儲在128 MB的塊,但只能使用幾個閣,這是HDFS一種正常的行爲糾正我,如果我錯了。 但是我怎樣才能在一個文件上得到所有不同的推文呢? 這裏是我的conf文件,我與follwing命令

    1熱度

    1回答

    我有一個任務使用Apache Flume將消息發送到Kafka主題。需要注意的是,我必須根據消息中的IP地址指定一個分區。 有沒有辦法配置Apache Flume動態地執行此操作,還是必須實現自定義的Producer插件? 謝謝。

    1熱度

    1回答

    我正在嘗試配置從.csv或.xl3讀取的水槽代理。文件示例: ClientA ClientB Start-time End-time Duration Status 35862515 36958452 16/01/2017 16/01/2017 10 good 32456988 22583694 16/01/2017 16/01/2017 05 good 35968478 36985

    0熱度

    1回答

    我想寫一個可以在hdfs接收器上創建avro文件的CustomSource。但我無法弄清楚。 希望看到一些指導方針或示例。

    0熱度

    1回答

    嗨我試圖從本地文件系統通過flume加載到HDFS文件系統的csv文件。我只有一個文件解析。文件大小小於5MB,但它分裂成在水槽上解析它時有很多部分。這是我的水槽。 FileAgent.sources = tail FileAgent.channels = Channel-2 FileAgent.sinks = HDFS FileAgent.sources.tail.type = exec

    0熱度

    1回答

    我有一個遠程服務器生成文件。服務器將文件每15分鐘推送到hadoop羣集。這些文件存儲在一個特定的目錄中。我們使用flume從本地目錄讀取文件並將它們發送到HDFS。但是,SpoolDir適合處理數據。 問題是當文件被寫入目錄時flume關閉處理。 我不知道如何使flume spooldir wait完成寫入文件,然後處理它。 或者如何使用腳本外殼或處理器在完全寫入之前阻止讀取文件。 有人可以幫助

    0熱度

    1回答

    我是Flume的新用戶,請把我當作絕對noob。我正在爲一個特定用例配置Flume這個小問題,並希望你能提供幫助。請注意,我沒有使用HDFS,這就是爲什麼這個問題與您在論壇上看到的其他問題不同。 我有兩臺虛擬機(VM)通過Oracle Virtual Box上的內部網絡相互連接。我的目標是讓一個虛擬機監視一個只有一個文件的特定目錄。當文件改變時,我希望Flume只發送新的行/數據。我希望其他虛擬機

    0熱度

    1回答

    我正在處理大數據項目。我們使用flume從sftp下載文件到HDFS。 然後,我們配置了3個代理。他們從相同的來源閱讀。結果,我們得到3個重複的文件到HDFS中,這是不好的。而我們必須只有一個文件。但是,我們需要保持已處理文件的可追溯性,並管理代理之間的併發性。例如,我們有3個主要代理A1,A2和A3。如果文件xxx.csv由代理A2處理或處理。其他人不會處理它,並會查找未處理的文件。所以,每個文

    1熱度

    1回答

    據多個信號源,如Hadoop Application Architecture,多匯可以從相同的信道讀出,以提高吞吐量: A sink can only fetch data from a single channel, but many sinks can fetch data from that same channel. A sink runs in a single thread, whi