我對Scrapy蜘蛛有一個疑問。假設我ahve這個代碼與Scrapy中的規則相混淆python spider
name = 'myspider'
allowed_domains = ['domain.com']
start_urls = ['http://www.domain.com/foo/']
rules = (
Rule(SgmlLinkExtractor(allow=r'-\w+.html$'), callback='parse_item', follow=True),
)
def parse_item(self, response):
hxs = HtmlXPathSelector(response)
我想知道,這將蜘蛛先進入起始URL和解析的頁面,然後利用規則提取鏈接
或蜘蛛不解析第一頁但將開始與規則
我已經看到,如果我的規則不匹配,那麼我沒有得到任何結果,但至少不應該已經解析起始頁
當您的規則不匹配時輸出是什麼樣的? – Talvalin
命令行出現了一些文本,並說爬行的0頁。我從crawlspider延伸。我在想,蜘蛛怎麼會知道我會用'parse_item'函數,因爲那是我唯一的函數,而且這只是在規則中提到的。實際上,基地 – user1858027