0
使用scrapy的CrawlSpider
,是否有一種規範的方式來獲取規則遵循的頁面的url從。因此,舉例來說,如果我有從網頁A到網頁B一個鏈接時,我解析網頁B在回調方法,有沒有辦法知道網頁A的網址是什麼?我更感興趣的是內置功能,而不是擴展CrawlSPider
類。CrawlSpider抓取時獲取源代碼鏈接
使用scrapy的CrawlSpider
,是否有一種規範的方式來獲取規則遵循的頁面的url從。因此,舉例來說,如果我有從網頁A到網頁B一個鏈接時,我解析網頁B在回調方法,有沒有辦法知道網頁A的網址是什麼?我更感興趣的是內置功能,而不是擴展CrawlSPider
類。CrawlSpider抓取時獲取源代碼鏈接
在你的回調可以使用「引薦」頭在響應的請求頭
def mycallback(self, response):
print "Referer:", response.request.headers.get("Referer")
...
應該與所有的蜘蛛工作。