0
我有一個包含許多網址的文件。我願意從這些網址中提取鏈接,然後提取不同網頁的標題和元數據。
我想知道有多少網址可以輸入到Scrapy爬蟲,這樣我就可以得到相應的結果。
我不知道scrapy是否會對url掃描有任何限制,並從url中提取鏈接。
我也想知道如何隨機抽取鏈接?使用Scrapy可以處理多少個URL?
le = LinkExtractor()
for link in le.extract_links(response):
yield scrapy.Request(link.url, callback=self.parse_inof)
請參閱上面的代碼。我正在使用這個來從網址中提取鏈接。
請讓我知道,我該如何做到這一點。
我試過'隨機'。但我不知道它在我的情況下不起作用。我仍然在尋找原因。 –
也有任何限制的網址處理?我有一些URL。 –
你試過 rand_item = random.choice(items)? 如果設置 CLOSESPIDER_ITEMCOUNT爲0,將永遠持續下去,而沒有記憶或也不例外 –