我有處理日誌文件數據的要求。這是相對微不足道的。我有4臺服務器,每臺服務器上運行2個Web應用程序,共計8個日誌文件。這些會定期輪換。我寫在下面的格式數據轉換成這些日誌文件處理日誌文件:Apache Storm或Spark
來源時間戳:9340398; 39048039; 930483; 3940830
當數字是在數據存儲的標識符。我想設置一個讀取這些日誌的進程,並且對於每個id,它將根據其id已經被記錄的次數來更新計數。它可以是實時的或批量的。我對數據存儲的界面語言是Java。該流程在生產中運行,因此需要具有強大的功能,但也需要具有相對簡單的體系結構以便維護。我們也運行zookeeper。
我最初的想法是每當在每個服務器上運行Apache Spark的日誌文件旋轉時都要這樣做。然而,我後來看到了像Apache Flume,Kafka和Storm這樣的日誌加速器,但是這看起來好像過火了。
鑑於衆多的選擇,任何人都有什麼好的建議,根據經驗使用哪些工具來處理這個問題?
也許像[logstash](https://www.elastic.co/products/logstash)這樣的解決方案可以被使用嗎?一般來說,這些問題都是關於SO的話題。 –
嗨,我看了Logstash,它似乎更傾向於過濾類型的操作。我同意這個問題不適合SO章程。 –