0
我有一個scrapy蜘蛛下面的代碼:更簡單的方法來跟蹤鏈接與Scrapy
class ContactSpider(Spider):
name = "contact"
# allowed_domains = ["http://www.domain.com/"]
start_urls = [
"http://web.domain.com/DECORATION"
]
BASE_URL = "http://web.domain.com"
def parse(self, response):
links = response.selector.xpath('//*[contains(@class,"MAIN")]/a/@href').extract()
for link in links:
absolute_url = self.BASE_URL + link
yield Request(absolute_url, headers= headers, callback=self.second)
我很驚訝沒有在scrapy一個簡單的方法來跟蹤鏈接,而不是構建每個absolute_url。有沒有更好的方法來做到這一點?
我建議先提一提'CrawlSpider':我相信這是這類用例的開箱即用的蜘蛛類。 –
非常感謝! – user61629