-1
我試圖提取特定鏈接,這個網站碼獲取HREF使用美麗的湯
<a class="pageNum taLnk" data-offset="10" data-page-number="1"
href="www.blahblahblah.com/bb32123">Page 1 </a>
<a class="pageNum taLnk" data-offset="20" data-page-number="2"
href="www.blahblahblah.com/bb45135">Page 2 </a>
正如你可以看到,該鏈接(HREF)是無組織的,因此沒有模式,我要使用的意味着我需要使用BeautifulSoup手動提取href。
我想具體獲得第2頁的href。
這些可以我現在的代碼。
from bs4 import BeautifulSoup
import urllib
url = 'https://www.tripadvisor.com/ShowUserReviews-g293917-d539542-r447460956-Duangtawan_Hotel_Chiang_Mai-Chiang_Mai.html#REVIEWS'
page = urllib.request.urlopen(url)
soup = BeautifulSoup(page, 'html.parser')
for link in soup.find_all('a', attrs = {'class' : 'pageNum taLnk'}):
print (link)
正如你所看到的,我停留在試圖獲得專門的HREF信息,第2頁。反正是有使用的標記,如data-page-number = "2"
或data-offset = "20"
內的信息額外位訪問。
哦..謝謝你!爲什麼我沒有想到這一點! ! –
@ Niche.P我更新了代碼,並請接受答案。 –
是的,我在等待計時器,還剩2分鐘。謝謝 –