我的目標是從拍賣網站頁面中刪除一些拍賣ID。頁面爲hereREGEX提取部分鏈接
對於我感興趣的頁面,大約有60個拍賣ID。 auctionID前面有一個短劃線,由10個數字組成,並在.htm
之前終止。例如在ID下面的鏈接將0133346952
<a href="/sports/cycling/mountain-bikes/full-suspension/auction-1033346952.htm" class="tile-2">
我已經得到儘可能從提取的各個環節,通過識別「一」的標籤。該代碼位於頁面的底部。
根據我有限的知識,我會說REGEX應該是解決這個問題的正確方法。我想正則表達式是這樣的:
-...........htm
不過,我沒能在正則表達式成功地融入代碼。我會盡管像
for links in soup.find_all('-...........htm'):
會做的伎倆,但顯然不是。
我該如何解決這段代碼?
import bs4
import requests
import re
res = requests.get('http://www.trademe.co.nz/browse/categorylistings.aspx?mcatpath=sports%2fcycling%2fmountain-bikes%2ffull-suspension&page=2&sort_order=default&rptpath=5-380-50-7145-')
res.raise_for_status()
soup = bs4.BeautifulSoup(res.text, 'html.parser')
for links in soup.find_all('-...........htm'):
print (links.get('href'))
How關於使像OP這樣的數字串10位數表示。 '[0-9] {10}' – Marichyasana
好點。之前沒有注意到。 – skyline75489