Scrapy中間件忽略URL並阻止爬行

如果url包含「https」，我有一箇中間件會[引發IgnoreRequests（）]。Scrapy中間件忽略URL並阻止爬行

class MiddlewareSkipHTTPS(object): 
    def process_response(self, request, response, spider): 
     if (response.url.find("https") > -1): 
      raise IgnoreRequest() 
     else: 
      return response

有沒有辦法完全防止scrapy從執行GET請求到HTTPS URL？沒有[IgnoreRequests（）]和我的代碼片段，我得到了相同的response_bytes/response_count值。我正在查找零值並跳過抓取網址。我不希望scrapy從https頁面抓取/下載所有字節，只需轉到下一個URL。

備註：必須是中間件，不要使用嵌入蜘蛛中的規則。有數百個蜘蛛，想要鞏固邏輯。

來源

2017-04-03 invulnarable27

不要使用process_response，它被稱爲後的請求已被提出。

您需要使用

def process_request(request, spider): 
    request.url # URL being scraped

這個方法調用之前的請求實際上由。

看到這裏

https://doc.scrapy.org/en/latest/topics/downloader-middleware.html#scrapy.downloadermiddlewares.DownloaderMiddleware.process_request

來源

2017-04-03 13:02:58 Umair

正是我一直在尋找，謝謝！ – invulnarable27

在設置這樣應該可以正常工作

DOWNLOAD_HANDLERS = { 
    'https': None 
}

來源

2017-04-03 10:56:22

Scrapy中間件忽略URL並阻止爬行

回答

相關問題