我查詢了CrawlSpider
Scrapy - 更改規則蜘蛛開始爬
我明白了鏈接提取rules
是一個靜態變量之後,
我可以改變rules
在運行時說,像
@classmethod
def set_rules(cls,rules):
cls.rules = rules
通過
self.set_rules(rules)
這是CrawlSpider
的可接受的做法嗎?如果沒有,請建議適當的方法
我的使用情況下,
我使用scrapy抓取某些類別的特定網站的A,B,C ....ž。每個類別有1000個鏈接分佈在10個頁面上
當scrapy在某個類別中「太舊」時觸及鏈接。我希望抓取工具僅針對該類別停止跟蹤/抓取剩餘的10個頁面,因此我需要動態改變規則。
請指出我在正確的方向。
謝謝!
這有幫助,謝謝:)雖然我仍然想知道.. scrapy允許在抓取過程中添加新規則嗎?像上面的方法? – wolfgang