我一直在尋找MapReduce一段時間,它似乎是一個實現容錯分佈式計算的好方法。我閱讀了大量有關該主題的論文和文章,在一系列虛擬機上安裝了Hadoop,並進行了一些非常有趣的測試。我真的認爲我瞭解地圖和縮小步驟。MapReduce是如何分析http服務器日誌的好方法?
但是,這是我的問題:我不明白它如何可以幫助HTTP服務器日誌分析。
我的理解是,大公司(例如Facebook)使用MapReduce來計算他們的http日誌,以加快從這些中抽取受衆統計數據的過程。我工作的公司雖然比Facebook小,但每天都有大量網絡日誌來計算(100Go每月增長5%到10%)。現在我們在一臺服務器上處理這些日誌,並且它工作得很好。但是,即時分發計算作業是一個即將開始的有用優化。
這裏是我現在不能回答的問題,任何幫助將不勝感激:
- 能MapReduce的概念真正被應用到網絡日誌分析?
- MapReduce是最聰明的做法嗎?
- 如何在各種計算實例之間拆分Web日誌文件?
謝謝。
薩科
首先,對於延遲抱歉。 非常感謝您的高質量答案。它有很大幫助! – Nicolas 2009-06-11 10:01:39