我們有一個應用程序可以爲其創建請求的文本日誌文件。在日誌文件中非常典型的東西,它是空格分隔的(日期,時間,url,http代碼,ip,用戶代理等)。關於處理/報告大量日誌文件類型數據的數據庫建議
目前,我們每天在文本日誌文件中生成大約500k條目。
我們目前正在通過sed/awk/grep的文本文件進行大量的分析。然而,由於我們想要在多天內開始報告,因此這並不是真正的規模:
例如, - 多少次這樣做IP地址打這個URL在最近5天 - 造成500秒爲特定的URL
這是很容易做到定期進口到一個MySQL數據庫和拉這種類型的數據是什麼%的請求與選擇/分組。但是,即使有幾十萬行,查詢也相對較慢。
當談到一些新的無sql dbs(Casandra,Dynamo,BigTable)時,我是n00b,但是它們中的任何一個都適合這個嗎?我正在繼續閱讀他們,但也許這個船員有一些建議。
謝謝!
良好的分析和故障。謝謝!我會給@ srkiNZ84建議infinidb一槍,並看看我們在哪裏。 – whatupwilly 2010-10-28 14:46:15