2016-11-10 24 views
0

所以我的問題是如何讓scrapy抓取URL,它只能用一個字符串分開設置。例如:https://www.youtube.com/watch?v=STRING 我得到了保存在txt文件中的字符串。將字符串導入scrapy以用作抓取URL

with open("plz_nummer.txt") as f: 
    cityZIP = f.read().rsplit('\n') 

for a in xrange(0,len(cityZIP)): 

    next_url = 'http://www.firmenfinden.de/?txtPLZ=' + cityZIP[a] + '&txtBranche=&txtKunden=' 
     pass 
+0

你真的想要說你想追加2個字符串嗎?你能分享一些代碼嗎? –

+0

所以我沒有做任何特別的事情,但我不知道如何告訴scrapy抓取這些鏈接 –

+0

你也可以從你的'plz_nummer.txt'文件粘貼摘錄嗎?你爲什麼添加scrapy標籤?你在使用'scrapy'框架嗎? –

回答

0

我將使用start_requests方法的zip代碼部分作爲生成器加載文件。一些行內:

import scrapy 

class ZipSpider(scrapy.Spider): 
    name = "zipCodes" 
    self.city_zip_list = [] 

    def start_requests(self): 
     with open("plz_nummer.txt") as f: 
      self.city_zip_list = f.read().rsplit('\n') 
     for city_zip in self.city_zip_list: 
      url = 'http://www.firmenfinden.de/?txtPLZ={}&txtBranche=&txtKunden='.format(city_zip) 
      yield scrapy.Request(url=url, callback=self.parse) 

    def parse(self, response): 
     # Anything else you need 
     # to do in here 
     pass 

這應該給你一個很好的起點。另請閱讀這篇文章:https://doc.scrapy.org/en/1.1/intro/tutorial.html