我試圖在分析多個URL後識別新模式。假設我正在研究假想的網站Yoohle.com,它們的URL具有以下結構。如何使用機器學習算法識別URL中的新模式(文本挖掘)
- 域= yoohle.com
- Q =搜索短語
- LAN =使用語言
- PR = PARTNER_ID
- 峯br = browser_id
所以樣品URL將看起來像這
www.yoohle.com/test_folder/test_page?q=hello+world&lan=en&pr=stackoverflow&br=chrome
如果我正在調查本網站的網站流量,並發現月份異常增加,我想知道是什麼原因造成的。在這個例子中,我可以解析出URL並查看pr =值,因爲它會告訴我是否有新的合作伙伴關係(也許stackoverflow將由yoohle.com驅動,並且驅動增加等)。
問題是,我該如何建立一個可以比較2個月(甚至更多)的健壯的東西,並確切地告訴我是什麼推動了這種增長。我要像,得到的東西「我們看到的增加,它是由以下模式驅動」
www.yoohle.com/test_folder/test_page%pr=stackoverflow%
棘手的部分是,你不知道,因爲我會什麼記號不像這個例子的意思是什麼不知道什麼令牌代表partner_id。另一個問題是,如果我們通過令牌來觀察令牌,這將會產生誤導,因爲假設用戶仍然使用英語作爲語言,lan = en也會與新的合作伙伴進行合作。
我的想法是通過查看所有組合來分析令牌,但代價非常高(在此示例中爲4 !,對於其他網站可能爲10+!)。分析令牌本身也不會解決問題,因爲我仍然需要分析令牌的值。
我試過k-means聚類,apriori算法做了一些關於URL /文本挖掘的研究,但沒有得到我想要的。關於如何構建算法的任何想法都是有益的。
想象一下,您正在看到實時數據,因此我們正在討論分析給定月份中大約100K個URL的情況。
由於這個問題更多的是關於統計方法,而不是關於編程,我認爲在stats.SE的人可能更有能力回答這個問題。版主,我們可以遷移這個問題嗎? – blubb 2013-04-10 17:25:08