我正在使用Scrapy XMLFeedSpider從網站解析一個大的XML源(60MB),我只是想知道是否有辦法檢索它的一部分而不是全部60MB,因爲現在內存消耗非常高,也許有些東西要放在鏈接中,例如:只檢索XML Feed的一部分
「http://site/feed.xml?limit=10」,我搜索了是否有類似的東西,但我還沒有找到任何東西。
另一種選擇是限制scrapy解析的項目,但我不知道該怎麼做。現在,一旦XMLFeedSpider解析了整個文檔,bot將只分析前10個項目,但我認爲整個飼料仍將留在記憶中。 關於如何提高機器人的性能,減少RAM和CPU消耗,你有什麼想法嗎?由於
http://doc.scrapy.org/en/master/topics/spiders.html#scrapy.spiders.XMLFeedSpider.iterator請參閱這部分文檔。它描述了補救措施。 –