0
如何禁用和刪除subdomain.domain.com
被抓取並列入alexa和其他抓取工具?特別是cpanel.domain.com
和webmail.domain.com
,列入我的alexa信息頁面並討厭:/。禁用抓取不需要的子域
如何禁用和刪除subdomain.domain.com
被抓取並列入alexa和其他抓取工具?特別是cpanel.domain.com
和webmail.domain.com
,列入我的alexa信息頁面並討厭:/。禁用抓取不需要的子域
從這篇文章:https://alexa.zendesk.com/hc/en-us/articles/200450194-Alexa-s-Web-and-Site-Audit-Crawlers
Alexa的web爬行器(機器人)自身標識爲在HTTP「ia_archiver」,「用戶代理」首部字段。 Alexa Internet ia_archiver爬蟲嚴格遵守robots.txt規則。
爲了防止ia_archiver訪問您的網站的任何部分,你的robots.txt文件應該是這樣的:
User-agent: ia_archiver
Disallow:/
您還可以限制特定目錄的爬行。例如,爲了防止ia_archiver從來訪的圖像目錄(及其子目錄):
User-agent: ia_archiver
Disallow: /images/
如果你能,你可以在你不希望有爬子域的根放置robots.txt
。如果這些頁面不在您的控制範圍之內;託管服務應該/可能已經完成了這些或類似的限制。
謝謝。但我使用共享主機,並且沒有名爲「cpanel」或「webmail」的目錄。我應該聯繫我的託管服務? – AliN11 2014-10-02 07:10:56
這就是我會做的。對這些子域禁用爬網似乎是一種很好的做法。我很驚訝他們沒有做到這一點。您可以通過轉到網址「subdomain.domain.com/robots.txt」來檢查「robots.txt」文件。 – 2014-10-02 07:13:20
在'cpanel.domain.com'中沒有'robot.txt'。 '404錯誤' – AliN11 2014-10-02 07:16:54