我成功地刮掉了網站的第一頁,但是當我試圖刮掉多頁面頁面時,它工作正常,但結果完全錯誤。在Python中用循環刮掉多個頁面
代碼:
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin
for num in range(1,15):
res = requests.get('http://www.abcde.com/Part?Page={num}&s=9&type=%8172653').text
soup = BeautifulSoup(res,"lxml")
for item in soup.select(".article-title"):
print(urljoin('http://www.abcde.com',item['href']))
它僅在每個頁面的URL改變一個數字,例如,
http://www.abcde.com/Part?Page=1&s=9&type=%8172653
http://www.abcde.com/Part?Page=2&s=9&type=%8172653
我總14頁的這一點。
我的代碼工作,但它只是反覆打印出第一頁的網址14次。我期望的結果是使用循環打印出來自不同頁面的所有不同的URL。
你實際上沒有格式化字符串來替換它的數字......所以如果你使用3.6+或者其他方式''格式(num = num)''將頁碼放入的字符串... –