-2
我使用Scapy1.4
通過指定一組URL來從網頁上抓取內容。我需要如何從頁面中提取各種信息,例如URL的標題,正文。如何從Scrapy中提取網頁中的所有內容
目前,我使用下面的URL
https://healthlibrary.epnet.com/GetContent.aspx?token=3bb6e77f-7239-4082-81fb-4aeb0064ca19&chunkiid=32905
而且我的代碼是
class gsapocSpider(BaseSpider):
name = "gsapoc"
start_urls =["https://healthlibrary.epnet.com/GetContent.aspx?token=3bb6e77f-7239-4082-81fb-4aeb0064ca19&chunkiid=32905"]
def parse(self, response):
responseSelector = Selector(response)
for sel in responseSelector.xpath('//ul/li'):
item = GsapocItem()
item['title'] = sel.xpath('//ul/li/a/text()').extract()
item['link'] = sel.xpath('a/@href').extract()
item['body'] = sel.xpath('//body//p//text()').extract()
#item['text'] = sel.xpath('//text()').extract()
#body = response.xpath('//body//p//text()').extract()
#print(body)
yield item