2012-02-09 148 views
2

如果我要使用zookeeper作爲工作隊列並連接到個人消費者/工作者。你會推薦什麼作爲記錄這些工人活動的良好分佈式設置?hadoop日誌記錄工具?

假設如下:

1)在任何時候,我們可能會下降到1個計算機外殼Hadoop集羣。系統會根據需要進行自動縮放,但是隻有一臺計算機需要停機時間。

2)我只需要能夠訪問所有的工人日誌,而無需訪問工人所在的單個機器。記住,當我閱讀這些日誌之一時,那臺機器很可能會被終止,並且很快就離開了。

3)我們需要方便地訪問日誌,即能夠cat/grep和tail,或者以更多SQLish方式 - 我們需要實時能力來查詢以及短時間監視輸出時間的實時。 (即尾-f /var/log/mylog.1)

我很欣賞你的專家意見!

謝謝。

回答

0

Fluentd日誌收集器剛剛發佈了它的WebHDFS插件,它允許用戶立即將數據流傳輸到HDFS。安裝簡單,管理簡單。

enter image description here

當然你也可以直接從您的應用程序中導入數據。以下是一個Java示例,可以針對Fluentd發佈日誌。 Fluentd的Java庫足夠聰明,可在Fluentd守護進程關閉時在本地進行緩衝。這減少了數據丟失的可能性。

高可用性配置也可以,這基本上使您能夠集中式日誌聚合系統。