我需要從Piography網站提取一些文章。使用BeautifulSoup從html頁面提取鏈接
所以從這個網頁http://www.biography.com/people我需要所有的子鏈接。 例如:
/people/ryan-seacrest-21095899
/people/edgar-allan-poe-9443160
但我有兩個問題:
1 - 當我試圖找到一個所有<一>。我無法找到我需要的href。
import urllib2
from BeautifulSoup import BeautifulSoup
url = "http://www.biography.com/people"
text = urllib2.urlopen(url).read()
soup = BeautifulSoup(text)
divs = soup.findAll('a')
for div in divs:
print(div)
2-有一個「看到更多」按鈕。所以我怎樣才能把網站上所有人的所有鏈接都拿走。不只是出現在第一頁?
你必須使用硒這 –