我們正在考慮建立一個數據倉庫系統來加載我們的Web服務器生成的Web訪問日誌。這個想法是實時加載數據。用於網絡訪問日誌的實時數據倉庫
對於用戶,我們希望呈現數據的折線圖並使用戶能夠使用維度向下鑽取。
問題是如何平衡和設計系統,以便;
(1)中的數據可以被提取並提供給實時(< 2秒)的用戶,
(2)數據可以在每小時和每一天的基礎上被聚集,並
(2)大量的數據仍然可以被存儲在倉庫中,以及
我們當前的數據速率是大約10〜每秒訪問這使我們每天〜800K行。我使用MySQL和簡單的星型模式進行的簡單測試表明,當我們擁有超過800萬行時,我的quires開始花費超過2秒。
是否有可能從這個樣子, 一個「簡單」的數據倉庫獲取實時查詢性能,仍然有它存儲了大量的數據(這將是很好能夠從未扔掉任何數據)
是否有方法將數據聚合到更高分辨率的表格中?
我有一種感覺,這不是一個真正的新問題(儘管我已經搜索了很多)。也許有人會指出這樣的數據倉庫解決方案?想到的是Splunk。
也許我在抓太多。
UPDATE
我的模式是這樣的;
尺寸:
- 客戶端(IP地址)
- 服務器
- 網址
事實;
- 時間戳(以秒計)
- 字節發送
非常非常有趣的問題。這是豪華的,我不知道,但也想了解這一點... – 2009-12-30 22:23:43