如何修改我的代碼來刮取這些鏈接？

-2

我是新來使用python scrapy，我的scrapy版本是1.1.3。我想在上獲得this part的鏈接列表。我應該如何修改我的代碼？如何修改我的代碼來刮取這些鏈接？

import scrapy 

class LinkSpider(scrapy.Spider): 
    name = "links" 
    start_urls = [ 
     'https://www.wikipedia.org/', 
    ] 

    def parse(self, response): 
     for link in response.xpath('//div/ul/li/a'): 
      yield{ 
       'link': link.extract() 
      }

以上是我的代碼在我的項目文件夾/蜘蛛/ spiders.py

我得到的是

[ 
{"link": "<a href=\"//de.wikipedia.org/\" lang=\"de\">Deutsch</a>"}, 
{"link": "<a href=\"//en.wikipedia.org/\" lang=\"en\" title=\"English\">English</a>"}, 
{"link": "<a href=\"//es.wikipedia.org/\" lang=\"es\">Espa\u00f1ol</a>"}, 
{"link": "<a href=\"//fr.wikipedia.org/\" lang=\"fr\">Fran\u00e7ais</a>"}, 
{"link": "<a href=\"//it.wikipedia.org/\" lang=\"it\">Italiano</a>"}, 
{"link": "<a href=\"//nl.wikipedia.org/\" lang=\"nl\">Nederlands</a>"}, 
{"link": "<a href=\"//ja.wikipedia.org/\" lang=\"ja\" title=\"Nihongo\">\u65e5\u672c\u8a9e</a>"}, 
{"link": "<a href=\"//pl.wikipedia.org/\" lang=\"pl\">Polski</a>"}, 
{"link": "<a href=\"//ru.wikipedia.org/\" lang=\"ru\" title=\"Russkiy\">\u0420\u0443\u0441\u0441\u043a\u0438\u0439</a>"}, 
{"link": "<a href=\"//ceb.wikipedia.org/\" lang=\"ceb\">Sinugboanong Binisaya</a>"} 
]

，我希望類似的列表只包含像「鏈接// de.wikipedia.org/」。

來源

2016-09-28 RealMonia

您可以提高通過解釋你的代碼做什麼是錯的，你期望它做什麼的問題，。 –

您需要修改XPath查詢獲取屬性沒有標籤

import scrapy 

class LinkSpider(scrapy.Spider): 
    name = "links" 
    start_urls = [ 
     'https://www.wikipedia.org/', 
    ] 

    def parse(self, response): 
     for link in response.xpath('//div/ul/li/a/@href'): 
      yield{ 
       'link': link.extract() 
      }

來源

2016-09-28 20:30:33

你缺少一些事情的價值，

您需要添加屬性@href得到值

您的href值在第一個索引上，您需要添加索引號。

import scrapy 
class LinkSpider(scrapy.Spider): 
    name = "links" 
    start_urls = ['https://www.wikipedia.org/', ] 

    def parse(self, response): 
     for link in response.xpath('//div/ul/li/a/@href'): 
      yield{'link': link.extract()[0]}

來源

2016-09-29 13:53:57 user2989777

如何修改我的代碼來刮取這些鏈接？

回答

相關問題