2012-06-08 43 views
1

我正在做爬行,我只希望使用美國域名。例如,我想:Perl模塊來檢測異物網址

http://thenorthface.com/ 

,但我不希望:

http://uk.thenorthface.com 
or 
http://se.thenorthface.com/ 

有誰知道的方式做到這一點,或者這是否Perl模塊?我知道這可以用正則表達式來完成,但我試圖避免必須將所有外部域名開始列表彙總在一起...非常感謝!

+0

什麼是「美域」?我可以想到你可能意味着的一些可能的方式。 – ysth

+0

更可靠的方法是找出IP地址的位置。 –

回答

2

不能可靠地確定一個「美」域名是URL中的內容。甚至不清楚「美國域名」這個詞有什麼含義。

例如,許多美國各州的縮寫也是ISO-3166國家代碼。你會怎麼做ar.xyz.com。那是阿肯色州還是阿根廷?那麼ma.pdq.com ... Massachussetts或摩洛哥(法語Maroc)?

您可以到二級域名(至少在總部)鏈接到一個國家,但主機名和三級域名將無法進行分類。

+0

謝謝。這很有幫助。 – srchulo