Scrapy和XPath從亞馬遜提取評論

我對Python和scrapy相對較新，並且需要一些關於我試圖解決的問題的幫助。我正在嘗試抓取亞馬遜，並使用scrapy和XPath爲特定產品提取用戶註釋。我想問問是否有比我現有的更優雅的解決方案。Scrapy和XPath從亞馬遜提取評論

假設我想從this address得到意見。評論頁面的結構看起來不太友好（使用螢火蟲，你可以看到只有評論區域沒有特定的標籤）。目前我使用下面的選擇器：hxs.select('//div/text()').extract()，但你可以想象它會創建大量的垃圾數據"\n\n\n\n\n"等。有沒有更優雅的方式來寫我的選擇器，可以改善我的結果。

來源

2012-04-15 TE0

嘗試此XPath'.//*[@ ID = 'productReviews']/tbody的/ TR/TD [1]/* /文本（）' – RanRag 2012-04-15 22:18:23

@RanRag的xpath不支持TBODY – 2012-04-17 06:57:07

一個選項是關閉「這篇評論來自...」文字。像這樣：

//table[@id='productReviews']//div[@class='tiny']/following-sibling::text()

來源

2012-04-16 01:06:03

Scrapy和XPath從亞馬遜提取評論

回答

相關問題