3
我試圖scrapy使用scrapy this page。我可以成功地抓取頁面上的數據,但我希望能夠從其他頁面抓取數據。 (接下來說的那些)。繼承人我的代碼的相關部分:使scrapy遞歸地移動到下一頁
def parse(self, response):
item = TimemagItem()
item['title']= response.xpath('//div[@class="text"]').extract()
links = response.xpath('//h3/a').extract()
crawledLinks=[]
linkPattern = re.compile("^(?:ftp|http|https):\/\/(?:[\w\.\-\+]+:{0,1}[\w\.\-\+]*@)?(?:[a-z0-9\-\.]+)(?::[0-9]+)?(?:\/|\/(?:[\w#!:\.\?\+=&%@!\-\/\(\)]+)|\?(?:[\w#!:\.\?\+=&%@!\-\/\(\)]+))?$")
for link in links:
if linkPattern.match(link) and not link in crawledLinks:
crawledLinks.append(link)
yield Request(link, self.parse)
yield item
我得到正確的信息:從鏈接頁面的標題,但它根本不是「導航」。我如何告訴scrapy導航?
嗯,那沒用。繼承人我的代碼: – user46257 2014-10-31 20:32:49
嗯,沒有工作。仍然沒有找到鏈接 – user46257 2014-10-31 20:33:38
沒有錯誤,它只是不遵循鏈接。仍然得到我告訴它進行def解析的任何內容。對於我的蜘蛛類,我只是定義了標題,這是我需要的信息。謝謝你的幫助 – user46257 2014-10-31 21:59:25