這裏庫內發現什麼是我的HTML數據:Python的BeautifulSoup find_all re.compile一組標籤
<td>4.2.2</td>,
<td align="center"><a href="https://blah.org/blah-4.2.2.zip">zip</a> (<a href="https://blah.org/blah-4.2.2.zip.md5">md5</a> | <a href="https://blah.org/blah-4.2.2.zip.sha1">sha1</a>)</td>,
<td align="center"><a href="https://blah.org/blah-.2.2.tar.gz">tar.gz</a> (<a href="https://blah.org/blah-4.2.2.tar.gz.md5">md5</a>|<ahref="https://blah.org/blah-4.2.2.tar.gz.sha1">sha1</a>)</td>,
<td align="center"><a href="https://blah.org/blah-4.2.2-IIS.zip">IISzip</a> (<a href="https://blah.org/blah-4.2.2-IIS.zip.md5">md5</a> | <a href="https://blah.org/blah-4.2.2-IIS.zip.sha1">sha1</a>)</td>,
<td>4.2.1</td>,
<td align="center"><a href="https://blah.org/blah-4.2.1.zip">zip</a> (<a href="https://blah.org/blah-4.2.1.zip.md5">md5</a> | <a href="https://blah.org/blah-4.2.1.zip.sha1">sha1</a>)</td>,
<td align="center"><a href="https://blah.org/blah-4.2.1.tar.gz">tar.gz</a> (<a href="https://blah.org/blah-4.2.1.tar.gz.md5">md5</a> | <a href="https://blah.org/blah-4.2.1.tar.gz.sha1">sha1</a>)</td>,
<td align="center"><a href="https://blah.org/blah-4.2.1-IIS.zip">IIS zip</a> (<a href="https://blah.org/blah-4.2.1-IIS.zip.md5">md5</a> | <a href="https://blah.org/blah-4.2.1-IIS.zip.sha1">sha1</a>)</td>,
<td>4.2</td>
<td>1.0-platinum</td>
等。
我想重複這個頁面,內拉出唯一的版本號:
<td>4.2.2</td>
標籤。例如:
4.2.2
4.2.1
4.2
1.0白金
到目前爲止,我曾嘗試:
for tag in html.find_all('tbody', limit=1, string=re.compile("\<td\>(.*?)\<\/td\>")):
print(tag.content)
什麼
rpart=html.find('tbody')
for tds in rpart.find_all('td'):
print(tds.find_all('\<td\>(.*?)\<\/td>'))
什麼
results=rpart.find_all('td', tds=re.compile("\<td\>(.*?)\<\/td\>"))
什麼
wphtml.find('tbody').find_all('td', tds=re.compile('\<td\>(.*?)\<\/td\>'))
什麼
for p in rpart.find_all('td', digits=re.compile('\<td\>(.*?)\<\/td\>')):
print(p.contents)
什麼
我也注意到,軟件rpart是類型 「的ResultSet」,所以我願意打賭它的東西很小在我失蹤。我在做什麼對神而言是錯誤的?
非常感謝,不幸的是,我卡住了使用BeautifulSoup。我忘了添加到我原來的帖子中,td標籤中的一些文本具有字符,所以這就是爲什麼我有我的正則表達式指定以這種方式抓住它。 – metallica1973