0
我想包括我scrapy items.py
文件的響應字段,如下所示:存儲重定向在Scrapy項目
class ScrapyItem(Item):
title = Field()
h1 = Field()
response = Field()
我想我可能只是在我的spider.py
文件中使用response.status
,但是這給了我一個200
狀態代碼每次。如果頁面被重定向或未找到,我希望它填寫301
,302
或404
。
在Scrapy中有沒有辦法做到這一點?
如果頁面未加載,則不會有任何項目。你需要的只是一個具有響應代碼的網址列表嗎? – Leo
我需要響應代碼以及頁面上的html元素。我使用parse_item方法加載和解析頁面,並通過調用response.status來獲取響應代碼。這每次都會返回200個代碼,沒有重定向或404s – zcoke
404的html很可能是「Page not found」頁面,沒有任何項目可以解析。大多數情況下,302和301響應根本沒有任何html。關鍵是,在這些頁面上沒有任何東西需要解析。 如果您嘗試構建簡單的網站地圖(鏈接 - 響應代碼),scrapy不是最好的或最簡單的工具。 – Leo