-2
我想用一些URL解析一個網站,並且我創建了一個文本文件,其中包含我想要解析的所有鏈接。我如何從python程序中的文本文件逐一調用這個URL。我該如何從文本文件逐個調用URL的
from bs4 import BeautifulSoup
import requests
soup = BeautifulSoup(requests.get("https://www.example.com").content, "html.parser")
for d in soup.select("div[data-selenium=itemDetail]"):
url = d.select_one("h3[data-selenium] a")["href"]
upc = BeautifulSoup(requests.get(url).content, "html.parser").select_one("span.upcNum")
if upc:
data = json.loads(d["data-itemdata"])
text = (upc.text.strip())
print(upc.text)
outFile = open('/Users/Burak/Documents/new_urllist.txt', 'a')
outFile.write(str(data))
outFile.write(",")
outFile.write(str(text))
outFile.write("\n")
outFile.close()
urllist.txt中
https://www.example.com/category/1
category/2
category/3
category/4
在此先感謝
我編輯了我的問題。我無法按照我想要的方式運行代碼。你可以看看。 – Burak
你的代碼有什麼問題?它返回的錯誤是什麼? – MMF
代碼工作,如果我把鏈接一個接一個,但我創建了所有鏈接,我想爬行的列表。而不是把鏈接一個接一個地從txt文件中獲取鏈接,一旦它抓取第一個鏈接,然後繼續下一個鏈接。 – Burak