首先,我正在考慮如何使用Hadoop將事件存儲到Hadoop中,並將定期對其進行分析(可能使用Ooozie安排定期分析)Kafka或Flume,以及認爲Kafka可能是更好的解決方案,因爲我們也有一個組件可以處理事件,所以批處理和事件處理組件都以相同的方式獲取數據。使用Kafka將數據導入Hadoop
但知道我正在尋找具體的建議如何將數據從經紀人獲取到Hadoop。
我發現here該水槽可以組合使用,卡夫卡
- 水槽 - 包括卡夫卡源(消費者)和沉(製片人)
而且也是在同一頁上,並在發現Kafka documentation,有一種叫做Camus
- 加繆 - LinkedIn的卡夫卡=> HDFS管道。這一個用於LinkedIn的所有數據,並且效果很好。
我對什麼會更好(更簡單,更好的文檔化解決方案)這樣做感興趣?另外,有沒有任何例子或教程如何做到這一點?
什麼時候應該使用這個變種更簡單,高級消費者?
如果有另一個/更好的解決方案比這兩個我打開的建議。
感謝
查看最新Kafka用戶羣聚會上的視頻以獲得一些提示:http://www.hakkalabs.co/文章/ kafka-hadoop-2 – Lundahl 2014-11-04 20:15:19
謝謝,這是一個偉大的視頻。如果你有一些具體的教程,也許它會很棒。 – Marko 2014-11-05 10:49:33
@abeaamase感謝您的回答,但您的鏈接似乎被破壞了? – Marko 2014-11-24 14:12:00