2014-10-02 61 views
0

如何禁用和刪除subdomain.domain.com被抓取並列入alexa和其他抓取工具?特別是cpanel.domain.comwebmail.domain.com,列入我的alexa信息頁面並討厭:/。禁用抓取不需要的子域

回答

0

從這篇文章:https://alexa.zendesk.com/hc/en-us/articles/200450194-Alexa-s-Web-and-Site-Audit-Crawlers

Alexa的web爬行器(機器人)自身標識爲在HTTP「ia_archiver」,「用戶代理」首部字段。 Alexa Internet ia_archiver爬蟲嚴格遵守robots.txt規則。

爲了防止ia_archiver訪問您的網站的任何部分,你的robots.txt文件應該是這樣的:

User-agent: ia_archiver 
Disallow:/

您還可以限制特定目錄的爬行。例如,爲了防止ia_archiver從來訪的圖像目錄(及其子目錄):

User-agent: ia_archiver 
Disallow: /images/ 

如果你能,你可以在你不希望有爬子域的根放置robots.txt。如果這些頁面不在您的控制範圍之內;託管服務應該/可能已經完成了這些或類似的限制。

+0

謝謝。但我使用共享主機,並且沒有名爲「cpanel」或「webmail」的目錄。我應該聯繫我的託管服務? – AliN11 2014-10-02 07:10:56

+0

這就是我會做的。對這些子域禁用爬網似乎是一種很好的做法。我很驚訝他們沒有做到這一點。您可以通過轉到網址「subdomain.domain.com/robots.txt」來檢查「robots.txt」文件。 – 2014-10-02 07:13:20

+0

在'cpanel.domain.com'中沒有'robot.txt'。 '404錯誤' – AliN11 2014-10-02 07:16:54