0
我對Python和scrapy相對較新,並且需要一些關於我試圖解決的問題的幫助。 我正在嘗試抓取亞馬遜,並使用scrapy和XPath爲特定產品提取用戶註釋。 我想問問是否有比我現有的更優雅的解決方案。Scrapy和XPath從亞馬遜提取評論
假設我想從this address得到意見。 評論頁面的結構看起來不太友好(使用螢火蟲,你可以看到只有評論區域沒有特定的標籤)。 目前我使用下面的選擇器:hxs.select('//div/text()').extract()
,但你可以想象它會創建大量的垃圾數據"\n\n\n\n\n"
等。有沒有更優雅的方式來寫我的選擇器,可以改善我的結果。
嘗試此XPath'.//*[@ ID = 'productReviews']/tbody的/ TR/TD [1]/* /文本()' – RanRag 2012-04-15 22:18:23
@RanRag的xpath不支持TBODY – 2012-04-17 06:57:07