實施大規模的日誌文件分析

任何人都可以點我參考或提供有關Facebook，雅虎，Google等公司如何執行大規模（如多TB範圍）日誌分析的高層次概述運營和特別是網絡分析？實施大規模的日誌文件分析

特別關注網絡分析，我對兩個密切相關的方面感興趣：查詢性能和數據存儲。

我知道一般的方法是使用map reduce來將每個查詢分佈在集羣上（例如使用Hadoop）。但是，什麼是最有效的存儲格式？這是日誌數據，所以我們可以假設每個事件都有一個時間戳，而且通常數據是結構化的而不是稀疏的。大多數Web分析查詢涉及分析兩個任意時間戳之間的數據片，並檢索該數據中的聚合統計信息或異常情況。

像大表（或HBase）這樣的面向列的數據庫是否是一種有效的存儲方式，更重要的是查詢這些數據？您是否選擇行的子集（基於時間戳）是否違背了此類存儲的基本前提？將它作爲非結構化數據存儲會更好嗎，例如。反向指數？

來源

2009-04-27 Rob