0

我在和小康的幾天得到這個錯誤,首先是一種刮:機械化得到403錯誤是由於robots.txt的,但robots.txt的塊沒有

mechanize._response.httperror_seek_wrapper: HTTP Error 403: request disallowed by robots.txt 

然而,機器人該網站的.TXT寫着:

User-agent: * 
Disallow: 

this source,如果網站被關閉,以這種訪問,robots.txt的將包含Disallow: /

這個錯誤仍然意味着我應該停止刮擦,或者有另一個問題嗎?

我應該嘗試安撫服務器(如減少頻繁請求),或者只是通過添加標頭等來規避錯誤?

最後,考慮到403,繼續刮刮是不道德的嗎?

回答

1

你可以ignore the robots.txt看看會發生什麼(可能不符合道德標準,即使是爲了測試目的)。如果仍然有403,他們可能會專門阻止您的IP,而不是添加到robots.txt文件。

您可以聯繫該網站的所有者,看看您是否可以獲得他們的許可,以覆蓋robots.txt,如果你覺得合法的固定。

或者像你說的,忽略robots.txt。我不能評論道德影響,因爲我不擅長這方面的工作。

+0

但是robots.txt本身沒有任何限制。 – Tag

+0

這就是爲什麼你試圖覆蓋它一次(或兩次),看看它是否會提升403錯誤。這是一個診斷檢查。如果繞過robots.txt後403仍然存在,那麼可能會阻止您的IP地址 – jarcobi889

+0

如果我沒有發現錯誤,該怎麼辦? (對不起,這個假設的談話,但我還沒有決定通過測試剛剛。) – Tag