2016-05-20 74 views
0

我想建立一個基於Hortonworks的大數據環境,但我並不熟悉所有優秀的工具。許多工具非常相似,但魔鬼在細節中。也許你可以幫助我驗證我的想法,所以我可以從一個solide base開始。我的hadoop架構改進建議

我想下面的數據資源連接到Hadoop的: - Twitter的流 - 聊天 - 板卡 - ...

隨着REST API我要搜索的每個流或所有單個的詞流。還應該有選擇在整個數據集中搜索或僅在過去的24小時內進行搜索。該methodes(用例)可以是:

  • findwordintwitter
  • findwordinchat
  • ...
  • findwordintwitter24h
  • findwordinchat24h
  • ...
  • findwordinallstreams
  • findwordinallstreams24h

這個想法是使用Flume,hbase和KNOX。但是這麼簡單嗎? Flume會將數據放入hbase中,我可以通過REST獲取我的信息。 KNOX將確保內部和外部連接。但我認爲,我錯過了很多,並不像我提到的那麼簡單。

也許我需要一個像Kafka這樣的管道,每個UseCase或者每個流一個hbase實例。我被大量的工具所震撼,我希望有人能給我提示我需要哪些工具。一個有點解釋的體系結構概述會很好,所以我得到一個線索來構建它。

感謝,N3

回答

0

@ N3 - 這是有人快速爲你解答一個棘手的問題。我認爲你所描述的無疑是完成你所想的一個方法。我可以告訴你,諾克斯API網關無疑是從羣集外部訪問HTTP資源的好方法。

您可能還需要考慮:

  • Nifi - Twitter的數據流的採集等
  • 風暴 - 相似的攝取與管道
  • 卡夫卡 - 用於攝取的可擴展性流
  • 的Solr/solrcloud - 用於搜索功能
+0

謝謝您的回答。在最後的日子裏,我發現這個話題非常複雜並且不容易回答。但是謝謝你的提示。 –