CrawlSpider抓取時獲取源代碼鏈接

使用scrapy的CrawlSpider，是否有一種規範的方式來獲取規則遵循的頁面的url從。因此，舉例來說，如果我有從網頁A到網頁B一個鏈接時，我解析網頁B在回調方法，有沒有辦法知道網頁A的網址是什麼？我更感興趣的是內置功能，而不是擴展CrawlSPider類。CrawlSpider抓取時獲取源代碼鏈接

來源

2013-07-21 Preom

在你的回調可以使用「引薦」頭在響應的請求頭

def mycallback(self, response): 
     print "Referer:", response.request.headers.get("Referer") 
     ...

應該與所有的蜘蛛工作。

來源

2013-07-21 21:19:15

CrawlSpider抓取時獲取源代碼鏈接

回答

相關問題