我們正在建設與開源工具實時大數據工具。我們的主要目標是通過實時從卡夫卡服務器獲取日誌來監督和分析網絡。我們在教程中看到,我們必須將工具分爲兩部分:Analytic和Supervision,如下所示。如何將elasticsearch連接到apache spark或storm?
對於監管部分,我們選擇的解決方案Elasticsearch和Logstash。
關於部分的分析,我和我的團隊,以便與Elasticsearch使用比較阿帕奇風暴流和Apache風暴。儘管Apache的風暴是比Apache星火流真正的實時數據處理工具,更快,它不提供學習機庫,例如與Apache的火花。這就是我們選擇Apache Spark的原因。彈性網站表明它存在連接器ES-Hadoop以將Elasticsearch數據庫連接到Hadoop生態系統。我們可以在下圖中看到。
但是,我們對這幅圖有點困惑,因爲只有spark而不是所有的spark框架(MLlib,Spark Streaming ..)。我們做了一些假設,並提出了兩種最終可能的架構。我們只想知道技術上是否正確,如果我們沒有錯誤的方向。
謝謝蘭德福。關於您的問題,我看到火花中的K-和線性迴歸算法可以實時使用。另外,我並不很瞭解spark sql的興趣。你解釋我嗎? –
星火SQL的可用性,這樣的數據,星火數據幀一次,可以使用簡單的SQL語句一樣查詢。它可用。但是,如果您的工作流並不涉及在關係數據意義上處理數據,則Spark SQL不是您將使用的工具。 Spark SQL只是訪問彈性數據的另一種方式(因爲大多數人都熟悉使用RDBMS進行數據操作)。 – Ramdev