如何在scrapy中爲HTML文件編寫XPath？

我想提取其中具有HTML結構angel.co網頁的內容如何在scrapy中爲HTML文件編寫XPath？

<meta content="Panjo, Marketplace for enthusiasts, Santa Monica, E-Commerce, Payments, Social Commerce, Forums, jobs, recruiting, hiring" name="description">

因此，對於上述結構我使用的Xpath

hxs.('//meta/@content').extract()

它打印相關的「內容」的所有文字標籤，但我希望這應該只打印與「描述」相關的內容。

來源

2013-08-01 Rahul

您可以使用謂詞只選擇meta標籤，其name屬性是'description'：

hxs.select('//meta[@name=\'description\']/@content').extract();

這裏是的XPath語法教程：http://www.w3schools.com/xpath/xpath_syntax.asp

來源

2013-08-01 18:20:20

是的，它的工作，其實我是使用這個hxs.select（'// meta [@ name ='description']/@ content'）。extract（），忘記插入間隙了，謝謝... – Rahul

如何在scrapy中爲HTML文件編寫XPath？

回答

相關問題