我的客戶端需要處理部署在羣集上的後端REST Based App服務器的應用程序(Tomcat)服務器日誌文件。 Clint希望從具有不同參數的數據中生成「訪問」和「頻率」報告。應用程序服務器日誌進程
我最初的計劃是從App服務器日誌中獲取這些數據 - >使用kafka推送到Spark Streaming並處理數據 - >將這些數據存儲到HIVE - >使用zeppelin找回那些處理過的集中日誌數據並根據客戶要求生成報告。
但根據我的知識,Kafka沒有任何功能可以從日誌文件中讀取數據並將它們發佈到卡夫卡代理中,在這種情況下,我們編寫了一個調度程序作業進程,它將讀取日誌時間和把它們發送給卡夫卡經紀人,我不想這樣做,因爲在那種情況下,它不會是真正的時間,並且可能存在同步問題,我們必須擔心同步問題,因爲我們有4個應用程序服務器實例。
另一種選擇,我認爲我們在這種情況下是Apache Flume。
任何人都可以告訴我哪一個更好的方法在這種情況下,或者如果在卡夫卡,我們有任何過程來從自己的日誌文件中讀取數據,我們可以在兩個功能的優點或缺點案件?
我猜想另一個選擇是Flume + kakfa在一起,但我不能推測會發生什麼,因爲我幾乎沒有關於flume的知識。
任何幫助將不勝感激...... :-)
非常感謝....
卡夫卡連接我想不會,我尋找到的它不會很適合。我使用與kafka同步的flume解決了這個問題。非常感謝您的回覆。 – Biswajit