我是一位經驗豐富的LAMP開發人員,並且具有豐富的php,nginx,haproxy,redis,mongodb和aws服務經驗。每當有大量數據需求時,我就會使用aws web服務,最近開始閱讀大數據,希望能夠自己使用該技術,而不是使用託管服務進行大數據處理,流處理等。Apache項目和大數據世界
但是這與學習LAMP並不一樣,因爲用例的性質,很難爲新手找到好的資源。特別適合沒有參與過Java生態系統的人。 (據我的理解,Java軟件幾乎涵蓋了流行的大數據堆棧)。在討論大數據時,下面列出了幾乎所有的軟件彈出窗口,但很難理解每個項目的概念,每個項目主頁上的描述都非常模糊。
例如「卡桑德拉」,對地表它是一個很好的數據庫來存儲時間序列數據,但閱讀時更多的分析則其他堆棧上來,Hadoop的,豬,動物園管理員等
- 卡桑德拉
- 弗林克
- 水槽
- Hadoop的
- HBase的
- 蜂巢
- 卡夫卡
- 星火
- 動物園管理員
所以,簡而言之,這是什麼這些軟件呢?在大數據背景下,這些項目中的一些共享相同的方面,爲什麼它們共存?有什麼優勢?什麼時候用什麼?
請求書籍或離線資源在計算器中被視爲offtopic – Panther