Scrapy不在網站上爬行

-2

我有共同的陷阱，無法擺脫它：我的Scrapy蜘蛛很懶，所以它只能解析start_urls。代碼如下：Scrapy不在網站上爬行

import scrapy 

from scrapy.spiders import Rule 
from scrapy.linkextractors import LinkExtractor 
from scrapy.item import Field 
from scrapy.selector import Selector 

class HabraPostSpider(scrapy.Spider): 
    name = 'habrapost' 
    allowed_domains = ['habrahabr.ru'] 
    start_urls = ['https://habrahabr.ru/interesting/'] 


    def parse(self, response): 
     self.logger.info('A response from %s just arrived!', response.url) 


    rules = (Rule(LinkExtractor()), 
      Rule(LinkExtractor(allow=('/post/'),),callback='parse_post',follow= True))

如果有人能說如何修理我的蜘蛛，我將非常高興！

來源

2016-05-14 Елена Серёгина

你的英語是完全破碎的，但在行之間閱讀我的理解是，你希望爬蟲進入它看到的每一個環節。

對於您必須使用CrawlSpider代替Spider

class HabraPostSpider(scrapy.spiders.CrawlSpider)

檢查the documentation。

來源

2016-05-14 21:57:29

你明白我）而且這是工作，謝謝你。 –

但'scrapy.spiders.CrawlSpider'實際上 –

Scrapy不在網站上爬行

回答

相關問題