機械化得到403錯誤是由於robots.txt的，但robots.txt的塊沒有

mechanize._response.httperror_seek_wrapper: HTTP Error 403: request disallowed by robots.txt

然而，機器人該網站的.TXT寫着：

User-agent: * 
Disallow:

據this source，如果網站被關閉，以這種訪問，robots.txt的將包含Disallow: /。

這個錯誤仍然意味着我應該停止刮擦，或者有另一個問題嗎？

我應該嘗試安撫服務器（如減少頻繁請求），或者只是通過添加標頭等來規避錯誤？

最後，考慮到403，繼續刮刮是不道德的嗎？

2017-02-21 Tag

你可以ignore the robots.txt看看會發生什麼（可能不符合道德標準，即使是爲了測試目的）。如果仍然有403，他們可能會專門阻止您的IP，而不是添加到robots.txt文件。

您可以聯繫該網站的所有者，看看您是否可以獲得他們的許可，以覆蓋robots.txt，如果你覺得合法的固定。

或者像你說的，忽略robots.txt。我不能評論道德影響，因爲我不擅長這方面的工作。

2017-02-21 21:21:33 jarcobi889

但是robots.txt本身沒有任何限制。 – Tag

這就是爲什麼你試圖覆蓋它一次（或兩次），看看它是否會提升403錯誤。這是一個診斷檢查。如果繞過robots.txt後403仍然存在，那麼可能會阻止您的IP地址 – jarcobi889

如果我沒有發現錯誤，該怎麼辦？（對不起，這個假設的談話，但我還沒有決定通過測試剛剛。） – Tag

回答