2017-04-18 75 views
0

如何使用scrapy抓取多個具有相同條件的網頁?例如:我想識別電子商務網站中不包含產品的所有產品網頁照片(或其它)使用scrapy抓取具有相同內容(例如/產品)的網址

class SomewebsiteProductSpider(scrapy.Spider): 
name = "test" 
allowed_domains = ["test.com"] 

start_urls = [test.com/product]

在許多eamples從來就看到的起始URL總是對應於單個頁面。

這可能嗎?謝謝!

+0

你檢查了[CrawlSpider類](https://docs.scrapy.org/en/latest/topics/spiders.html#crawlspider)嗎? –

回答

0

如果要識別網頁的所有項目,最好從一頁開始 - 通常是網站的主頁 - 並從此處開始爬網。您想要使用您感興趣的所有類別列表的網站頁面。

使用scrapy,您可以定義蜘蛛應該遵循哪些鏈接以及哪些網頁應該解析並返回信息。

所以這是可能的,scrapy是一個很好的工具。

+0

謝謝@frank!我已經找到一個包含所有產品頁面的頁面。這種方式將更容易抓取它們!謝謝你的幫助 –