我最近開始使用Scrapy,並試圖使用「XMLFeedSpider」來提取和加載xml頁面中的頁面。但問題是它返回一個錯誤:「IndexError:列表索引超出範圍」。如何使用scrapy從XML提取網址 - XMLFeedSpider?
我試圖收集和加載是在該地址的所有產品頁:
「http://www.example.com/feed.xml」
我的蜘蛛:
from scrapy.spiders import XMLFeedSpider
class PartySpider(XMLFeedSpider):
name = 'example'
allowed_domains = ['http://www.example.com']
start_urls = [
'http://www.example.com/feed.xml'
]
itertag = 'loc'
def parse_node(self, response, node):
self.logger.info('Hi, this is a <%s> node!: %s', self.itertag,''.join(node.extract()))
請分享您的堆棧跟蹤,當你'IndexError:列表索引range' –
當然的,我已經加入我的回溯。 – Pablo