我正在開發一種網站分析類型的系統,需要在網站上爲每個訪問者記錄引薦網址,着陸頁網址和搜索關鍵字。我想對收集到的數據做的事情是允許最終用戶查詢數據,例如「向我展示所有來自Bing.com的訪客搜索包含'紅色鞋子'的短語」或「向我顯示所有登陸的訪客在包含'campaign = twitter_ad'「的URL上,等等。將數百萬個網址存儲在數據庫中以進行快速模式匹配
因爲這個系統將被用在很多大網站上,所以需要記錄的數據量真的會非常快。所以,我的問題是:a)什麼是記錄最好的策略,以便縮放系統不會變成一種痛苦; b)如何使用該體系結構快速查詢任意請求?是否有一種特殊的方法來存儲URL,以便查詢它們的速度更快?
除了我使用的MySQL數據庫之外,我正在探索(並開放給)更適合於此任務的其他替代方案。
感謝您的建議。雖然校驗策略可能不適用於我,因爲我可能需要進行模式匹配,例如:搜索包含campaign = twitter的所有URL – 2010-06-06 05:32:05