我使用CrawlSpider來抓取網站。該網站使用cookie檢測我的蜘蛛。如果我禁用它們,它也會檢測到我是一個機器人。那麼如何在每個請求中使用新的cookie。重置Scrapy中的cookies而不禁用它們
我的蜘蛛很簡單:
# -*- coding: utf-8 -*-
import scrapy
import requests
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
class ExampleSpider(CrawlSpider):
name = 'example'
allowed_domains = ['www.example.com']
start_urls = ['http://www.example.com/items']
rules = (
Rule(LinkExtractor(allow=('/items/.'),deny=('sendMessage')), follow=True),
Rule(LinkExtractor(allow=('/item/[a-z\+]+\-[0-9]+') ,deny=('sendMessage')), callback='parse_item', follow=False),
)
def parse_item(self, response):
#parsing the page et yielding data
PS:我使用Tor來更改IP每x秒。
新的每個請求的cookie是一樣的不使用cookies。 – eLRuLL
@eLRuLL你確定嗎?我們如何驗證這一點?知道當COOKIES_ENABLED爲False時,COOKIES_DEBUG不起作用。 – Hebmaster