我想使用Scrapy和xpath從網站上刮數據,但我遇到了一些麻煩。這裏是我的代碼:使用Scrapy和Xpath刮數據
class MaijiaSpider(scrapy.Spider):
name = 'maijiaSpider'
start_urls =["http://www.maijia.com/index.html#/item/list/?keyword=recaro"]
def parse(self, response):
articles = response.xpath("//table[@class='ui-table ui-table-striped ui-table-inbox tablefixed']//tr[1]/td[2]/div/div[1]/a/@href")
for article in articles:
yield{
'link': article.xpath('.//td[2]//a/@href').extract_first()
}
問題是文章總是空的,因此它永遠不會進入for循環。我究竟做錯了什麼?我嘗試了不同的xpath字符串,但似乎沒有任何工作。
這個URL這是一個相當長的XPath表達式。 '/ div [@ class =「cell-box」]/a'怎麼樣?出錯的可能性更小。 – leovp
如何從'start-urls'中的'URL'獲取頁面源代碼? – Andersson
@leovp我也試過,但它仍然不起作用 –