2012-11-08 23 views
1

我在維護網站http://www.totalworkflow.co.uk,並且不確定HTTrack是否遵循robots.txt文件中給出的說明。如果有任何答案,我們可以保持HTTrack遠離網站,請建議我實施,否則只是告訴機器人名稱,以便我可以阻止這個垃圾爬行我的網站。如果robots.txt無法做到這一點,請推薦是否有其他方式讓本機器人遠離網站?如何通過robots.txt讓HTTrack抓取工具遠離我的網站?


你說的沒錯,垃圾郵件爬蟲沒有必要遵循robots.txt文件中給出的指導。我知道robots.txt只適用於真正的搜索引擎。但是,如果開發人員對此應用程序進行了嚴格編碼,以避免跳過robots.txt指南(如果提供),那麼應用程序HTTrack可能看起來是真的。如果提供了這個選項,那麼應用程序對於預期的目的將非常有用。好吧,讓我來談談我的問題,實際上我想找到的解決方案是保持HTTRack搜索器在Web服務器上沒有硬編碼任何東西。我首先嚐試在網站站長級別解決此問題。然而,你的想法在未來是很好的考慮。謝謝

回答

1

它應該遵守robots.txt,但robots.txt是一件你不必遵守的事情(而且實際上是一件非常好的事情,可以找到你不希望其他人看到的垃圾郵件機器人)那麼在將來的某個時間有什麼保證(即使它現在服從機器人),將不會有一個選項忽略所有robots.txt和metatags?我認爲更好的方法是配置您的服務器端應用程序來檢測和阻止用戶代理。用戶代理字符串有可能會在抓取工具源代碼中的某處硬編碼,並且用戶將無法更改它以阻止您阻止該抓取工具。您只需編寫一個服務器腳本來提取用戶代理信息(或檢查服務器日誌),然後根據此信息創建阻止規則。或者,您可以只搜索已知「不良代理商」的列表。要阻止支持.htaccess的服務器上的用戶代理,看看這個線程做它的一種方式:

Block by useragent or empty referer

+0

在的HTTrack,用戶代理可以是手工採摘或者手工修改,並在選項,您可以選擇忽略robots.txt。底線就像你說的,你不能阻止爬蟲爬取你的網站,除非你想禁止IP範圍或使用其他方法主動拒絕連接(robots.txt是自願的)。 – Abel

相關問題