1
正如我們所知,robots.txt可以幫助我們避免通過網絡爬蟲/機器人編制某些網頁/部分的索引。但是使用這種方法有一些缺點:1.網絡爬蟲可能不會收聽robots.txt文件; 2.你正在將你想保護的文件夾暴露給每個人;如何在沒有robots.txt的情況下阻止機器人
還有一種方法可以阻止您希望從抓取工具保護的文件夾?請記住,這些文件夾可能希望可以從瀏覽器訪問(如/ admin)。
正如我們所知,robots.txt可以幫助我們避免通過網絡爬蟲/機器人編制某些網頁/部分的索引。但是使用這種方法有一些缺點:1.網絡爬蟲可能不會收聽robots.txt文件; 2.你正在將你想保護的文件夾暴露給每個人;如何在沒有robots.txt的情況下阻止機器人
還有一種方法可以阻止您希望從抓取工具保護的文件夾?請記住,這些文件夾可能希望可以從瀏覽器訪問(如/ admin)。
檢查請求上的User-Agent
標頭,如果標頭包含機器人名稱,則發出403。這將阻止所有誠實的機器人,但不是不誠實的機器人。但是,如果機器人真的很誠實,它會服從robots.txt
。
我雖然關於使用用戶代理白名單,但很髒,一些新的用戶代理可能會被禁止。其他解決方案? – machineaddict