flume

1熱度

1回答

我嘗試使用flume目錄後臺處理程序源和HDFS接收器。但是這並不符合我的目的，因爲這些文件被Flume讀取，然後作爲可以按大小/時間滾動的部分文件寫入HDFS（請糾正我，如果我有這個錯誤）。有沒有一種工具可以持續執行像HDFS一樣的操作，將所有文件放入spool目錄中？

2熱度

1回答

可以使用Apache Flume在特定時間段內提取推文嗎？

我想使用Apache Flume在六月和七月的月份中提取與關鍵字相關的推文Feed。這可以在第一時間完成嗎？

2熱度

1回答

爲什麼當文件用作通道時，Flume需要更多的資源（％CPU），而內存則用作通道。

我試圖使用File作爲通道，因爲它在代理程序崩潰的情況下可靠，與使用內存作爲通道相比。我看到的是％CPU在文件通道的情況下是99-110％，而％CPU在內存通道的情況下只是10-17％，有人可以解釋它背後的原因。

1熱度

1回答

蜂巢錯誤而查詢包含水槽流外部表

在CDH 5.4，我試圖用建立在Twitter上分析演示：水槽用於捕捉鳴叫到HDFS文件夾蜂巢查詢使用Hive-Serde的推文步驟1成功。我可以看到這些推文正在被捕獲並正確導向到所需的HDFS文件夾。我觀察到一個臨時文件被創建第一個，然後轉換爲永久文件： -rw-r--r-- 3 root hadoop 7548 2015-10-06 06:39 /user/flume/tweets/F

0熱度

1回答

Pubmed DataSet - 使用Flume連接FTP

要從Pubmed DataSet [ncbi]檢索數據，我使用FireFTP Addon（在Firefox中）檢索xml，pdf，txt內容。 [http://www.ncbi.nlm.nih.gov/pmc/tools/ftp/] 我已經成功安裝了Apache Flume。主要目標是 - 我需要將FTP與Flume連接並將最終結果數據集存儲在Cassandra中。任何人都可以幫助我如何連接F

1熱度

1回答

如何使用MVN爲https://github.com/keedio/flume-ng-sql-source/

我試圖從https://github.com/keedio/flume-ng-sql-source/創建jar文件，但持續失敗創建罐子。我下載了https://github.com/keedio/flume-ng-sql-source/和CD後進去，我跑mvn clean package。它失敗，出現以下錯誤： [INFO] Scanning for projects... [INFO] [I

0熱度

1回答

NullPointerException異常啓動Apache水槽

當我試圖運行水槽和我得到的NullPointerException：的.jar：在/ usr /本地/ Hadoop的/ libexec目錄/../ LIB /口 - 2.0。 8.jar：在/ usr /本地/ hadoop的/的libexec /../ LIB/servlet的API-2.5-20081211.jar：在/ usr /本地/ hadoop的/的libexec /../ LIB

0熱度

1回答

如何上傳文件給Kafka Consumer？

我正在嘗試使用Flume或直接向Kafka加載文件給Kafka Consumer。我開始使用這個鏈接的卡夫卡服務器：http://kafka.apache.org/081/quickstart.html 正如文檔中提到的，我開始動物園管理員和經紀人。然後，我可以將生產者的消息發送給消費者。但是，我正在嘗試查看是否可以將本地計算機的輸入文件上傳到Kafka。有什麼建議嗎？謝謝。

0熱度

1回答

Apache Flume是否僅適用於文本數據？

每個關於Apache Flume的教程都舉例說明了「日誌不斷生成」的例子。如果Flume僅適用於文本數據，或者它也可以處理音頻，視頻，電子傳感器輸入等流式數據，我很好奇嗎？因爲不管數據類型如何，它都是字節數組。

0熱度

1回答

Apache Flume Source，channel和sink類型的有效值

在Apache Flume中，我們需要指定Source，channel和sink的配置細節。對於每個我們必須指定類型和其他屬性取決於類型。是否有一個參考頁面，其中包含所有類型的Source，Channel和Sink。然後根據類型對應其他屬性。何時使用哪種類型。有人可以請我指出正確的文件？