我想建立一個基於Hortonworks的大數據環境,但我並不熟悉所有優秀的工具。許多工具非常相似,但魔鬼在細節中。也許你可以幫助我驗證我的想法,所以我可以從一個solide base開始。我的hadoop架構改進建議
我想下面的數據資源連接到Hadoop的: - Twitter的流 - 聊天 - 板卡 - ...
隨着REST API我要搜索的每個流或所有單個的詞流。還應該有選擇在整個數據集中搜索或僅在過去的24小時內進行搜索。該methodes(用例)可以是:
- findwordintwitter
- findwordinchat
- ...
- findwordintwitter24h
- findwordinchat24h
- ...
- findwordinallstreams
- findwordinallstreams24h
這個想法是使用Flume,hbase和KNOX。但是這麼簡單嗎? Flume會將數據放入hbase中,我可以通過REST獲取我的信息。 KNOX將確保內部和外部連接。但我認爲,我錯過了很多,並不像我提到的那麼簡單。
也許我需要一個像Kafka這樣的管道,每個UseCase或者每個流一個hbase實例。我被大量的工具所震撼,我希望有人能給我提示我需要哪些工具。一個有點解釋的體系結構概述會很好,所以我得到一個線索來構建它。
感謝,N3
謝謝您的回答。在最後的日子裏,我發現這個話題非常複雜並且不容易回答。但是謝謝你的提示。 –