我想刮website。我想要做的提取是文檔列表,作者姓名和日期。我觀看了一些scrapy蜘蛛視頻,並能夠找出3個shell腳本命令,從網站上提供所需的數據。該命令是Scrapy與Scrapy蜘蛛
scrapy shell https://www.cato.org/research/34/commentary
日期:
response.css('span.date-display-single::text').extract()
作者:
response.css('p.text-sans::text').extract()
在頁面的文檔鏈接
response.css('p.text-large.experts-more-h > a::text').extract()
我試圖得到它通過Python,但都是徒勞的。由於有多個數據。
這裏是Python代碼:
import scrapy
class CatoSpider(scrapy.Spider):
name = 'cato'
allowed_domains = ['cato.org']
start_urls = ['https://www.cato.org/research/34/commentary']
def parse(self, response):
pass
不要使用'css'此,更好的是'xpath' – AndMar
我正在嘗試構建一個模塊,並且任務將是單擊文章鏈接並提取日期,作者和文章標題。並且爲所有文章做這個鏈接網頁(cato.org/research/34/commentary)。請幫忙 – Shad