我正在嘗試使用Scrapy shell來測試一些XPath,但它似乎在調用我的不完整的蜘蛛模塊來進行刮擦,這不是我想要的。有沒有一種方法可以定義哪種蜘蛛scrapy使用它的shell?更重要的是,Scrapy爲什麼這樣做;它不應該知道蜘蛛沒有準備好使用嗎?這就是我爲什麼使用shell的原因?否則,我會使用如何定義scrapy shell使用哪個蜘蛛?
scrapy crawl spider_name
如果我想使用特定的蜘蛛。
編輯:在永久查看Spider文檔後,我在shell中使用了spider實例的以下說明。
蜘蛛 - 這是已知的處理的URL,或BaseSpider對象,如果沒有找到當前URL
這意味着蜘蛛的蜘蛛,scrapy已關聯與我的蜘蛛的網址,並使用它而不是BaseSpider。不幸的是,我的蜘蛛還沒有準備好進行測試,那麼有沒有辦法強制它使用BaseSpider來替代shell?
如果你想調試你的蜘蛛,你可能希望看到的文檔的這一部分:HTTP:// doc.scrapy.org/topics/shell.html#invoking-the-shell-from-spiders-to-inspect-responses –
我不是想調試我的蜘蛛,而是調試一個XPath。這是使用Scrapy shell完成的,但shell似乎在創建我定義的蜘蛛的實例,而不是默認的BaseSpider類。 – emish
@ThomasK該網址現在不可用:( –