我使用Scrapy和我有關設置「CONCURRENT_REQUESTS」的文檔閱讀。 他談論「Scrapy下載器將執行的併發(即同時)請求的最大數量。」信息對Scrapy CONCURRENT_REQUESTS在Python
我創建了一個蜘蛛,以便從Q & A網站獲得問題和答案,所以我想知道是否可以運行多個併發請求。 現在我已將此值設置爲1,因爲我不想放棄某個項目或重寫某個人。 的主要疑問是,我有一個全局ID idQuestion(用於製作idQuestion.idAnswer)用於任何項目做我不知道,如果讓多個請求都可以是一個爛攤子,寬鬆一些項目o設置爲錯誤的ID。
這是一個代碼片段:
class Scraper(scrapy.Spider):
uid = 1
def parse_page(self, response):
# Scraping a single question
item = ScrapeItem()
hxs = HtmlXPathSelector(response)
#item['date_time'] = response.meta['data']
item['type'] = "Question"
item['uid'] = str(self.uid)
item['url'] = response.url
#Do some scraping.
ans_uid = ans_uid + 1
item['uid'] = str(str(self.uid) + (":" + str(ans_uid)))
yield item
#Call recusivly the method on other page.
print("NEXT -> "+str(composed_string))
yield scrapy.Request(composed_string, callback=self.parse_page)
這是我的代碼骨架。 我使用uid記住單個問題的id和答案的ans_uid。 例:
1)問題
1.1)答1問題1
1.2)答2問題1
1.3)答3問題1
**可我只是增加CONCURRENT_REQUESTS值?沒有妥協的東西? **
'ans_uid'未初始化 – eLRuLL