如何抓住robots.txt禁止？

如何捕獲scrapy中robots.txt禁止的請求？通常這似乎會被自動忽略，即沒有輸出，所以我真的不知道這些網址會發生什麼。理想情況下，如果抓取一個網址導致robots.txt錯誤禁止這個，我想輸出一個記錄，如{'url': url, 'status': 'forbidden by robots.txt'}。我怎樣才能做到這一點？如何抓住robots.txt禁止？

新的scrapy。感謝任何幫助。

來源

2017-05-25 Psidom

轉到項目文件夾中的settings.py，並將ROBOTSTXT_OBEY = True更改爲ROBOTSTXT_OBEY = False。

來源

2017-08-23 15:00:41 Umarr

如何抓住robots.txt禁止？

回答

相關問題