2016-09-26 26 views
-2

我想用一些URL解析一個網站,並且我創建了一個文本文件,其中包含我想要解析的所有鏈接。我如何從python程序中的文本文件逐一調用這個URL。我該如何從文本文件逐個調用URL的

from bs4 import BeautifulSoup 
import requests 

soup = BeautifulSoup(requests.get("https://www.example.com").content, "html.parser") 

for d in soup.select("div[data-selenium=itemDetail]"): 
    url = d.select_one("h3[data-selenium] a")["href"] 
    upc = BeautifulSoup(requests.get(url).content, "html.parser").select_one("span.upcNum") 
    if upc: 
     data = json.loads(d["data-itemdata"]) 
     text = (upc.text.strip()) 
     print(upc.text) 
     outFile = open('/Users/Burak/Documents/new_urllist.txt', 'a') 
     outFile.write(str(data)) 
     outFile.write(",") 
     outFile.write(str(text))    
     outFile.write("\n") 
     outFile.close() 

urllist.txt中

https://www.example.com/category/1 
category/2 
category/3 
category/4 

在此先感謝

回答

0

使用情況管理器:

with open("/file/path") as f: 
    urls = [u.strip('\n') for u in f.readlines()] 

你獲得與您的文件,並可以所有的網址列表然後按照你的喜好打電話給他們

+0

我編輯了我的問題。我無法按照我想要的方式運行代碼。你可以看看。 – Burak

+0

你的代碼有什麼問題?它返回的錯誤是什麼? – MMF

+0

代碼工作,如果我把鏈接一個接一個,但我創建了所有鏈接,我想爬行的列表。而不是把鏈接一個接一個地從txt文件中獲取鏈接,一旦它抓取第一個鏈接,然後繼續下一個鏈接。 – Burak

相關問題