我想從Python運行Scrapy。我在看這個代碼(source):Scrapy從Python運行
from twisted.internet import reactor
from scrapy.crawler import Crawler
from scrapy.settings import Settings
from scrapy import log
from testspiders.spiders.followall import FollowAllSpider
spider = FollowAllSpider(domain='scrapinghub.com')
crawler = Crawler(Settings())
crawler.configure()
crawler.crawl(spider)
crawler.start()
log.start()
reactor.run() # the script will block here
我的問題是,我如何調整這個代碼來運行自己的蜘蛛困惑。我已經打電話給我的蜘蛛項目「spider_a」,它指定了要在蜘蛛本身內爬行的域。
我所問的是,如果我跑我的蜘蛛用下面的代碼:
scrapy crawl spider_a
如何調整上面的例子Python代碼做?
以此方式運行將忽略用戶的設置。 – Medeiros