Scrapy - 無法提出額外的請求在XMLFeedSpider

我有一個scrapy蜘蛛，使用XMLFeedSpider。除了爲parse_node()中的每個節點返回的數據外，我還需要額外請求獲取更多數據。唯一的問題是，如果我得到來自parse_node()沒有額外的請求被退回所有：Scrapy - 無法提出額外的請求在XMLFeedSpider

class MySpidersSpider(XMLFeedSpider): 
    name = "myspiders" 
    namespaces = [('g', 'http://base.google.com/ns/1.0')] 
    allowed_domains = {"www.myspiders.com"} 
    start_urls = [ 
     "https://www.myspiders.com/productMap.xml" 
     ] 
    iterator = 'iternodes' 
    itertag = 'item' 

    def parse_node(self, response, node): 
     if(self.settings['CLOSESPIDER_ITEMCOUNT'] and int(self.settings['CLOSESPIDER_ITEMCOUNT']) == self.item_count): 
      raise CloseSpider('CLOSESPIDER_ITEMCOUNT limit reached - ' + str(self.settings['CLOSESPIDER_ITEMCOUNT'])) 
     else: 
      self.item_count += 1 
     id = node.xpath('id/text()').extract() 
     title = node.xpath('title/text()').extract() 
     link = node.xpath('link/text()').extract() 
     image_link = node.xpath('g:image_link/text()').extract() 
     gtin = node.xpath('g:gtin/text()').extract() 
     product_type = node.xpath('g:product_type/text()').extract() 
     price = node.xpath('g:price/text()').extract() 
     sale_price = node.xpath('g:sale_price/text()').extract() 
     availability = node.xpath('g:availability/text()').extract() 

     item = MySpidersItem() 
     item['id'] = id[0] 
     item['title'] = title[0] 
     item['link'] = link[0] 
     item['image_link'] = image_link[0] 
     item['gtin'] = gtin[0] 
     item['product_type'] = product_type[0] 
     item['price'] = price[0] 
     item['sale_price'] = '' if len(sale_price) == 0 else sale_price[0] 
     item['availability'] = availability[0] 

     yield Request(item['link'], callback=self.parse_details, meta={'item': item}) 

    def parse_details(self, response): 
     item = response.meta['item'] 
     item['price_per'] = 'test' 
     return item

如果我改變的parse_node()到return item正常工作的最後一行（不包括在項目設置price_per，自然）。

任何想法我做錯了什麼？

來源

2017-06-19 BrynJ

我發現了這個問題 - 我限制了在parse_node()函數中處理的項目數。但是，由於這個限制，我的蜘蛛在提出請求之前就終止了。移動代碼限制處理，我parse_details()功能的項目解決了問題：

def parse_details(self, response): 
     if(self.settings['CLOSESPIDER_ITEMCOUNT'] and int(self.settings['CLOSESPIDER_ITEMCOUNT']) == self.item_count): 
      raise CloseSpider('CLOSESPIDER_ITEMCOUNT limit reached - ' + str(self.settings['CLOSESPIDER_ITEMCOUNT'])) 
     else: 
      self.item_count += 1 
     item = response.meta['item'] 
     item['price_per'] = 'test' 
     return item

來源

2017-06-20 09:40:33 BrynJ

您是否嘗試過檢查item['link']的內容？如果它是相對鏈接（例如：/products?id=5），則URL不會返回任何內容，並且請求將失敗。您需要確保它是可解析的鏈接（例如：https://www.myspiders.com/products?id=5）。

來源

2017-06-19 16:56:49 Ceili

是的，網址是解析 - 如果我調試，我可以通過瀏覽器訪問該鏈接的URL罰款。我也剛剛改變了鏈接，像「http：// httpbin.org /'這樣的任意東西，而且我的回調沒有被擊中（或者我的物品返回）。 – BrynJ

Scrapy - 無法提出額外的請求在XMLFeedSpider

回答

相關問題