2013-06-06 99 views
-1

我有大約1000個網址,任務是統計它們的出現次數並打印出最高頻率。單篇文章有多個URL時會出現問題。示例如下:如何從跟蹤查詢字符串變量中清除URL?

http://mashable.com/2013/06/05/whistle/?utm_campaign=Feed:+Mashable+(Mashable)&utm_cid=Mash-Product-RSS-Pheedo-All-Partial&utm_medium=twitter&utm_source=twitterfeed 
http://mashable.com/2013/06/05/whistle/?utm_campaign=Feed:+Mashable+(Mashable)&utm_cid=Mash-Product-RSS-Pheedo-All-Partial&utm_medium=feed&utm_source=feedburner 
http://mashable.com/2013/06/05/whistle/?utm_campaign=Mash-Product-RSS-Pheedo-All-Partial&utm_cid=Mash-Product-RSS-Pheedo-All-Partial&utm_medium=twitter&utm_source=dlvr.it 

所有這些指向相同的文章,但是,他們不同的方式是由一些第三方跟蹤變量。我可以使用RegExp消除以下內容,但可能會有無限變體。另外,我無法刪除整個查詢字符串,因爲它可能包含真正的變量(即show.php?p=12

utm_campaign 
utm_cid 
utm_medium 
utm_source 

問: 是否有這些變量的完整列表?你有沒有更好的方法做到這一點?

+0

確定,但該文章的http標題必須是相同的權利,您可以得到它,然後與其他人一起檢查 – anshulkatta

回答

0

而且期運用正則表達式

[?&](.*?)= 

url中的每個變量開始用 '?'或'&'並且必須以'='結尾

+0

是的,我知道:)。是否有任何完整的跟蹤cookie名稱列表? –

+0

給我一些例子 – nomaka

+0

看問題上面的例子。三個可搗亂的例子 –