0
我想在我不知道網址結構的網站上使用Scrapy。Scrapy的條件網址抓取
我想:從含有Xpath的網頁
僅提取數據 「// DIV [@類=」 產品視點 「]」。
提取打印(在CSV)的URL,名稱和價格的XPath
當我運行下面的腳本,我得到的是URL的
scrapy crawl dmoz>test.txt
from scrapy.selector import HtmlXPathSelector
from scrapy.spider import BaseSpider
from scrapy.http import Request
DOMAIN = 'site.com'
URL = 'http://%s' % DOMAIN
class MySpider(BaseSpider):
name = "dmoz"
allowed_domains = [DOMAIN]
start_urls = [
URL
]
def parse(self, response):
for url in response.xpath('//a/@href').extract():
if not (url.startswith('http://') or url.startswith('https://')):
url= URL + url
if response.xpath('//div[@class="product-view"]'):
url = response.extract()
name = response.xpath('//div[@class="product-name"]/h1/text()').extract()
price = response.xpath('//span[@class="product_price_details"]/text()').extract()
yield Request(url, callback=self.parse)
print url