2016-10-28 24 views
0

我想從一個服務器(Unix服務器A)發送csv文件到hdfs目錄。基於哪些csv文件我想將它們放在hdfs的不同目錄中。在hdfs kafka,flume的不同目錄中着陸文件

我有11個csv文件將由kafka生產者在unix服務器A上發送到kafka。 csv文件的第一個元素將包含一個鍵。我想把第一個元素作爲kafka消息的關鍵。另外,我想發送數據的值作爲kafka中的消息。

當它遇到kafka集羣時,會有一個獲取數據的通道代理程序和通過密鑰對數據進行排序的攔截器,以將其引導到11個kafka主題通道(作爲通道中的通道)。頻道然後將數據重定向到適當的hdfs目錄。

這個設計是否有意義?還是有更好的方法來做到這一點?也許火花流?

+0

不幸的是,我們的羣集(CDH)還沒有提供使用Kafka Connect和Confluent開源HDFS接收器(請參閱https://github.com/confluentinc/kafka-connect-hdfs) –

+0

。 – Defcon

回答

0

你剛纔提到的設置看起來一目瞭然。

攔截器是將事件詳細信息添加到標題的好方法。不過,你已經提到,這將是排序/指導信息的渠道。取而代之的是,您可能需要指定標頭,您在攔截器中添加路徑在hdfs接收器中的一部分。