2017-05-25 73 views
1

如何捕獲scrapy中robots.txt禁止的請求?通常這似乎會被自動忽略,即沒有輸出,所以我真的不知道這些網址會發生什麼。理想情況下,如果抓取一個網址導致robots.txt錯誤禁止這個,我想輸出一個記錄,如{'url': url, 'status': 'forbidden by robots.txt'}。我怎樣才能做到這一點?如何抓住robots.txt禁止?

新的scrapy。感謝任何幫助。

回答

2

轉到項目文件夾中的settings.py,並將ROBOTSTXT_OBEY = True更改爲ROBOTSTXT_OBEY = False