我有這樣的一段代碼,基本上應提取給定網站的正文:如何使用Scrapy提取正文文本?
class MySpider(CrawlSpider):
name = 'smm'
allowed_domains = []
start_urls =['http://www.jeffbullas.com/2014/12/19/10-ways-to-succeed-in-the-new-age-of-mobile-content-marketing/']
def parse(self, response):
items = []
item = SocialMediaItem()
item['webKW'] = response.xpath('//body//p//text()').extract()
items.append(item)
return items
但是,它似乎沒有報廢。我已經使用這個在線工具http://videlibri.sourceforge.net/cgi-bin/xidelcgi上的同一個網站測試了xpath表達式,並且它完全符合我的需要,所以它必定是Scrapy編碼的一個問題。你能幫我嗎? 謝謝!
達尼
謝謝異形!它正在工作。但是,如何從所有段落中獲取文本,而不僅僅是第一個? –
該代碼適用於所有段落。答覆中的輸出是摘錄 – aberna
你說得對,我沒有正確檢查。再次感謝! –