2010-11-24 38 views
5

我剛剛scrapy設置和運行,它運作良好,但我有兩個(noob)的問題。我應該首先說我對scrapy和spidering站點是全新的。Scrapy Django限制鏈接爬行

  1. 你能限制抓取的鏈接數嗎?我有一個網站,不使用分頁,只是在他們的主頁上列出了很多鏈接(我抓取)。當我真的需要抓取前10個鏈接時,我感覺很糟糕。

  2. 如何一次運行多個蜘蛛?現在我使用命令scrapy crawl example.com,但我也有example2.com和example3.com的蜘蛛。我想用一個命令來運行所有的蜘蛛。這可能嗎?

+0

刮一個網站一次可能會讓你從該網站禁止,是壞/粗魯的做法。 Scrapy是併發的,所以它通過多個連接一次性完成。查看超時設置的配置設置。 – 2010-11-24 20:03:43

回答

2

for#1:不要使用rules屬性來提取鏈接並關注,在解析函數中編寫規則併產生或返回Requests對象。

#2

:儘量scrapyd