我正在製作一個小機器人來抓取一些網站。 現在,我只是測試它,現在,我嘗試2種設置:過於咄咄逼人的機器人?
約10個請求每3秒 - 知識產權得到禁止,所以我說 - 好吧,這是太快了。
每隔3秒發出2次請求 - IP在30分鐘後被禁止並且有1000個鏈接被抓取。
這仍然是太快?我的意思是我們正在談論接近1,000,000條鏈接,我應該收到「我們只是不想被抓取?」的消息。還是那太快了?
謝謝。
編輯
再次嘗試 - 2個請求每5秒 - 30分鐘,550個鏈接後,我得到禁止。
我會每2秒發一次請求,但我懷疑同樣會發生。我想我必須聯繫管理員 - 如果我能找到他。
在禁止之前,您拉了多少頁?你有沒有要求和榮譽'robots.txt'?你在'User-Agent'頭裏放了什麼? – benzado 2010-01-15 04:24:16
我沒有請求robots.txt :)但我確實在我的瀏覽器中首先檢查它。大約1000多頁,我不確定。不,我還沒有設置用戶代理。這可能會是我的下一步 – sirrocco 2010-01-15 04:29:28
您是否曾嘗試聯繫您嘗試抓取的網站的管理員?您可能可以與他們合作,特別是如果他們因爲懷疑惡意活動(例如試圖收集電子郵件地址的垃圾郵件發送者)而僅禁止您。 – ZoogieZork 2010-01-15 04:38:38