我想獲取網站中的所有標題()。用Beautifulsoup和Requests刮取'N'頁(如何獲得真實頁碼)
http://www.shyan.gov.cn/zwhd/web/webindex.action
現在,我的代碼只能成功擦除一個頁面。但是,我想在上面的網站上找到多個可用的頁面。
例如,通過上面的url,當我點擊鏈接到「第2頁」時,整個網址不會改變。我查看了頁面源代碼,並看到javascript代碼像這樣前進到下一頁:javascript:gotopage(2)或javascript:void(0)。 我的代碼是在這裏(獲取頁面1)
from bs4 import Beautifulsoup
import requests
url = 'http://www.shyan.gov.cn/zwhd/web/webindex.action'
r = requests.get(url)
soup = Beautifulsoup(r.content,'lxml')
titles = soup.select('td.tit3 > a')
for title in titles:
print(title.get_text())
如何將我的代碼更改爲颳去所有可用列出的網頁標題? 非常感謝!
非常感謝!但是我無法得到下一頁。我的代碼在下面。請幫我修改它。 –