2017-07-06 30 views
1

獲取文本我得到這個代碼從一個網站:在python scrapy

import scrapy 

class BrickSetSpider(scrapy.Spider): 
    name = "brickset_spider" 
    start_urls = ['http://brickset.com/sets/year-2016'] 

    def parse(self, response): 
     SET_SELECTOR = '.set' 
     for brickset in response.css(SET_SELECTOR): 

      NAME_SELECTOR = 'h1 a ::text' 
      yield { 
       'name': brickset.css(NAME_SELECTOR).extract(), 
      } 

我使用的代碼爬行數據。這是運行代碼時的示例結果: ![enter image description here

該名稱是extract()方法的結果。這是檢查元素(鉻):

enter image description here

我想請教一下,以獲取名稱的結果的方式是10805:環遊世界或只是周圍的世界。怎麼做?

回答

1

得到 「10805:環遊世界」 的收益率更改爲:

yield { 
      'name': " ".join(brickset.css(NAME_SELECTOR).extract()), 
     } 

要獲得 「環遊世界」 的收益率更改爲:

yield { 
      'name': brickset.css(NAME_SELECTOR).extract()[-1], 
     }