Scrapy如何過濾抓取的網址？

我想知道Scrapy如何過濾這些爬行的URL？它是否存儲了所有在crawled_urls_list之類的網址中抓取的網址，當它獲取新的網址時，它會查找列表以檢查網址是否存在？Scrapy如何過濾抓取的網址？

CrawlSpider（/path/to/scrapy/contrib/spiders/crawl.py）的這個過濾部分的代碼在哪裏？

非常感謝！

2012-11-29 Java Xu

默認情況下，scrapy會保留已查看請求的指紋。該列表保存在python集的內存中，並在JOBDIR變量定義的目錄中附加了一個文件調用requests.seen。如果您重新啓動scrapy，該文件將重新加載到python集合中。控制此類的類位於scrapy.dupefilter 如果您需要不同的行爲，則可以重載此類。

來源

2012-11-29 15:50:50 gvtech

感謝loooooooooot！你的回答對我來說是一大恩惠！我想要做的是在爬行時暫停蜘蛛。下面是一些其他人也想要暫停蜘蛛的鏈接：[暫停你的蜘蛛]（http://scrapy.readthedocs.org/en/0.16/topics/jobs.html） –

我在哪裏可以找到該文件包含已被抓取的網址？ –

@XuJiawan我在哪裏可以找到包含已被抓取的網址的文件？ –

Scrapy如何過濾抓取的網址？

回答

相關問題