我正在嘗試配置scrapy
以關注外部鏈接。爲不同領域增加scrapy的爭議?
與此同時,我有DOWNLOAD_DELAY = 3
,所以這是禮貌的服務器。
是否有配置scrapy
立即開始和並行下載外部鏈接的方法嗎?
從日誌看來,外部鏈接與內部鏈接位於同一隊列中。
我的蜘蛛是:
16 class RedditSpider(scrapy.Spider):
17 name = "reddit"
18 start_urls = ['https://www.reddit.com/']
19
20 def parse(self, response):
21 digest = hashlib.md5(response.body).hexdigest()
22 if pages.find_one({'digest': digest}):
23 return
24 links = LinkExtractor(allow=()).extract_links(response)
25 urls = [l.url for l in links]
26 pages.insert_one({
27 'digest': digest,
28 'url': response.url,
29 'links': urls,
30 'body': response.text
31 })
32 for url in urls:
33 yield scrapy.Request(url, callback=self.parse)