1
我想刮掉沒有分頁的網站的所有鏈接,即有一個'LOAD MORE'按鈕,但URL不會更改取決於您要求的數據量。從單個頁面網站獲取與BeautifulSoup的所有鏈接('加載更多'功能)
當我BeautifulSoup
頁面,並要求所有的鏈接,它只是顯示網站的香草第一頁上的鏈接的數量。我可以通過點擊'LOAD MORE'按鈕來手動點擊舊內容,但是有一種方法可以通過編程來完成。
這就是我的意思是:
page = urllib2.urlopen('http://www.thedailybeast.com/politics.html')
soup = soup = BeautifulSoup(page)
for link in soup.find_all('a'):
print link.get('href')
而且不幸的是有沒有網址,負責分頁。
謝謝你,非常有幫助! – Zlo