4
下一頁
我有這樣的代碼scrapy框架:Scrapy抓取與
# -*- coding: utf-8 -*-
import scrapy
from scrapy.contrib.spiders import Rule
from scrapy.linkextractors import LinkExtractor
from lxml import html
class Scrapy1Spider(scrapy.Spider):
name = "scrapy1"
allowed_domains = ["sfbay.craigslist.org"]
start_urls = (
'http://sfbay.craigslist.org/search/npo',
)
rules = (Rule(LinkExtractor(allow=(), restrict_xpaths=('//a[@class="button next"]',)), callback="parse", follow= True),)
def parse(self, response):
site = html.fromstring(response.body_as_unicode())
titles = site.xpath('//div[@class="content"]/p[@class="row"]')
print len(titles), 'AAAA'
但問題是,我得到100個結果,它不會進入下一個頁面。
這裏有什麼問題?
你能給我與如'CrawlSpider'?這是建議的方式? –
增加了'CrawlSpider'代碼。請注意,您不能使用'parse'作爲回調函數,因爲這在內部使用! –
謝謝,它工作完美。 –