2017-02-10 23 views
0

我有一個包含許多網址的文件。我願意從這些網址中提取鏈接,然後提取不同網頁的標題和元數據。
我想知道有多少網址可以輸入到Scrapy爬蟲,這樣我就可以得到相應的結果。
我不知道scrapy是否會對url掃描有任何限制,並從url中提取鏈接。
我也想知道如何隨機抽取鏈接?使用Scrapy可以處理多少個URL?

le = LinkExtractor() 
    for link in le.extract_links(response): 
     yield scrapy.Request(link.url, callback=self.parse_inof) 

請參閱上面的代碼。我正在使用這個來從網址中提取鏈接。
請讓我知道,我該如何做到這一點。

回答

1
CONCURRENT_ITEMS 
Default: 100 

在項目處理器(也稱爲項目管道)中並行處理的最大併發項目數(每個響應)。

CONCURRENT_REQUESTS 
Default: 16 

併發(即同時的。)將由Scrapy下載

編輯來執行請求的最大數目; Altso,可能可以使用,

import random 

list = [20, 16, 10, 5]; 
random.shuffle(list) 
print "Reshuffled list : ", list 

random.shuffle(list) 
print "Reshuffled list : ", list 

You might need to give the list urls a numeric id first. 
+0

我試過'隨機'。但我不知道它在我的情況下不起作用。我仍然在尋找原因。 –

+0

也有任何限制的網址處理?我有一些URL。 –

+0

你試過 rand_item = random.choice(items)? 如果設置 CLOSESPIDER_ITEMCOUNT爲0,將永遠持續下去,而沒有記憶或也不例外 –

相關問題