我有請求數據的一個大的數據庫表,很像Apache的請求日誌,中:處理和匹配大量數據的約50萬行
/profile/Billy
Mozilla.....
2012-06-17...
/profile/Jane
Mozilla.....
2012-06-17...
:
request_url
user_agent
created
包含這樣的數據
然後我有我的用戶數據庫表,我的所有用戶數據包括用戶名。
目前,每天晚上,我處理由排爲前一天的請求數據,行,看它是否包含匹配的用戶表中的用戶名之一的URL。如果是這樣,我會在另一個存儲統計信息的表格中增加總數,以便用戶查看他們在特定日期獲得的瀏覽量。
然而,隨着數據集不斷,這正成爲資源密集型的,也可以花費很長的時間才能完成,通過URL分組請求數據,並抓住該組計數時也是如此。
有沒有更好的方式處理這些信息以獲得我需要的最終結果?請求數據將被記錄下來,所以最好在事後生成統計數據,而不是在每個頁面視圖上增加總數。
我在一臺服務器上運行此操作,因此不需要在多個服務器上分佈式處理數據。
是的,這與我所做的相當接近。我有些簡化了我的例子,因爲我會查找諸如/ profile/username/photos之類的內容,並將它們視爲綜合瀏覽量。 – Jim