1
我仍然不明白使用BeautifulSoup的情況。我可以用它來解析網頁,這裏的「example_website.com」的原始HTML:通過使用BeautifulSoup的超鏈接訪問表格數據
from bs4 import BeautifulSoup # load BeautifulSoup class
import requests
r = requests.get("http://example_website.com")
data = r.text
soup = BeautifulSoup(data)
# soup.find_all('a') grabs all elements with <a> tag for hyperlinks
然後,檢索和打印與「HREF」屬性的所有元素,我們可以使用一個for循環:
for link in soup.find_all('a'):
print(link.get('href'))
我不明白:我有一個包含多個網頁的網站,每個網頁都會列出幾個帶有表格數據的超鏈接。
我可以使用BeautifulSoup來解析主頁,但是如何使用相同的Python腳本來抓取第2頁,第3頁等等?你如何「訪問」通過'href'鏈接找到的內容?
有沒有辦法編寫一個python腳本來做到這一點?我應該使用蜘蛛嗎?
「複雜而緩慢」這就是問題所在。我想我必須逐一處理鏈接。對於「目錄」類型的網站(例如,想想Yelp),這會變得乏味。你將不得不編寫多個for循環,並確保你沒有跳過任何東西。 (我可能是錯的!) – ShanZhengYang