我看到this發佈,使scrapy抓取任何網站沒有允許的域名限制。scrapy允許所有域名
是否有這樣做的,如使用允許域變量的正則表達式沒有更好的辦法,喜歡 -
allowed_domains = ["*"]
我希望有一些其他的方式比侵入scrapy框架來做到這一點。
我看到this發佈,使scrapy抓取任何網站沒有允許的域名限制。scrapy允許所有域名
是否有這樣做的,如使用允許域變量的正則表達式沒有更好的辦法,喜歡 -
allowed_domains = ["*"]
我希望有一些其他的方式比侵入scrapy框架來做到這一點。
根本不設置allowed_domains。
一下這篇scrapy文件get_host_regex()函數:
https://github.com/scrapy/scrapy/blob/master/scrapy/contrib/spidermiddleware/offsite.py
你應該diactivate異地middlware這是一個內置的蜘蛛中間件scrapy。 欲瞭解更多信息http://doc.scrapy.org/en/latest/topics/spider-middleware.html
謝謝。但是,我想爲所有人設置allowed_domains,這是可能的嗎? – riship89 2012-03-04 04:22:07
如果您未設置allowed_domains,則默認情況下允許所有域。 – 2012-03-04 18:01:44