我正在使用Python和Xpath一起抓取Reddit。目前我正在首頁上工作。我試圖從頭版中提取鏈接並在shell中顯示它們的標題。使用XPath從超鏈接中提取文本
爲此,我使用Scrapy框架。我正在Scrapy殼本身測試這個。
我的問題是:我如何從<a> ABC </a>
屬性中提取文本。我想要字符串「ABC」。我找不到它。我嘗試了以下表達式,但它似乎不起作用。
response.xpath('//p[descendant::a[contains(@class,"title")]]/@value')
response.xpath('//p[descendant::a[contains(@class,"title")]]/@data')
response.xpath('//p[descendant::a[contains(@class,"title")]]').extract()
response.xpath('//p[descendant::a[contains(@class,"title")]]/text()')
他們都不似乎工作。當我使用extract()
時,它給了我整個屬性本身。例如,而不是給我ABC
,它會給我<a>ABC</a>
。
如何提取文本字符串?
這是我犯的錯誤! – 2014-11-24 02:12:37