0
我在和小康的幾天得到這個錯誤,首先是一種刮:機械化得到403錯誤是由於robots.txt的,但robots.txt的塊沒有
mechanize._response.httperror_seek_wrapper: HTTP Error 403: request disallowed by robots.txt
然而,機器人該網站的.TXT寫着:
User-agent: *
Disallow:
據this source,如果網站被關閉,以這種訪問,robots.txt的將包含Disallow: /
。
這個錯誤仍然意味着我應該停止刮擦,或者有另一個問題嗎?
我應該嘗試安撫服務器(如減少頻繁請求),或者只是通過添加標頭等來規避錯誤?
最後,考慮到403,繼續刮刮是不道德的嗎?
但是robots.txt本身沒有任何限制。 – Tag
這就是爲什麼你試圖覆蓋它一次(或兩次),看看它是否會提升403錯誤。這是一個診斷檢查。如果繞過robots.txt後403仍然存在,那麼可能會阻止您的IP地址 – jarcobi889
如果我沒有發現錯誤,該怎麼辦? (對不起,這個假設的談話,但我還沒有決定通過測試剛剛。) – Tag