1
如何捕獲scrapy中robots.txt禁止的請求?通常這似乎會被自動忽略,即沒有輸出,所以我真的不知道這些網址會發生什麼。理想情況下,如果抓取一個網址導致robots.txt錯誤禁止這個,我想輸出一個記錄,如{'url': url, 'status': 'forbidden by robots.txt'}
。我怎樣才能做到這一點?如何抓住robots.txt禁止?
新的scrapy。感謝任何幫助。
如何捕獲scrapy中robots.txt禁止的請求?通常這似乎會被自動忽略,即沒有輸出,所以我真的不知道這些網址會發生什麼。理想情況下,如果抓取一個網址導致robots.txt錯誤禁止這個,我想輸出一個記錄,如{'url': url, 'status': 'forbidden by robots.txt'}
。我怎樣才能做到這一點?如何抓住robots.txt禁止?
新的scrapy。感謝任何幫助。
轉到項目文件夾中的settings.py
,並將ROBOTSTXT_OBEY = True
更改爲ROBOTSTXT_OBEY = False
。