所以問題是我有一個蜘蛛爬過一個網站,颳了一堆產品信息...然後我想有另一個產品列表首先建立鏈接,並將其用於檢查目的。Scrapy有一個蜘蛛使用另一個嵌入的屬性
我意識到我可以在一個蜘蛛中完成這一切,但蜘蛛已經非常大(是25個不同域的通用蜘蛛),並希望保持這個儘可能分離。目前我創建這個主蜘蛛的情況下,像如下:
def run_spiders(*urls, ajax=False):
process = CrawlerProcess(get_project_settings())
for url in urls:
process.crawl(MasterSpider, start_page = url, ajax_rendered = ajax)
process.start()
理想的情況下如何做到這一點的工作就像是在下面看到的東西:
- Scrapy run multiple spiders from a main spider?
- Is it possible to run another spider from Scrapy spider?
我嘗試在MasterSpider的closed_handler內產生另一個爬蟲程序,但反應堆已經運行得如此清晰這不會起作用。有任何想法嗎?
請注意,無論何時我嘗試切換到爬蟲跑步者,即使我按照文檔中的確切內容/問題行事,它也不會完全正常工作。我在考慮使用from_crawler可能是我的方式,但我不完全確定