我在維護網站http://www.totalworkflow.co.uk,並且不確定HTTrack是否遵循robots.txt文件中給出的說明。如果有任何答案,我們可以保持HTTrack遠離網站,請建議我實施,否則只是告訴機器人名稱,以便我可以阻止這個垃圾爬行我的網站。如果robots.txt無法做到這一點,請推薦是否有其他方式讓本機器人遠離網站?如何通過robots.txt讓HTTrack抓取工具遠離我的網站?
你說的沒錯,垃圾郵件爬蟲沒有必要遵循robots.txt文件中給出的指導。我知道robots.txt只適用於真正的搜索引擎。但是,如果開發人員對此應用程序進行了嚴格編碼,以避免跳過robots.txt指南(如果提供),那麼應用程序HTTrack可能看起來是真的。如果提供了這個選項,那麼應用程序對於預期的目的將非常有用。好吧,讓我來談談我的問題,實際上我想找到的解決方案是保持HTTRack搜索器在Web服務器上沒有硬編碼任何東西。我首先嚐試在網站站長級別解決此問題。然而,你的想法在未來是很好的考慮。謝謝
在的HTTrack,用戶代理可以是手工採摘或者手工修改,並在選項,您可以選擇忽略robots.txt。底線就像你說的,你不能阻止爬蟲爬取你的網站,除非你想禁止IP範圍或使用其他方法主動拒絕連接(robots.txt是自願的)。 – Abel