所以我只是想知道我怎麼會從以下字符串中提取http://www.google.com
:如何從Python中的字符串中提取子字符串?
<div class="asdf"><a href="http://www.google.com">
比方說,我有一堆在裏面鏈接一個巨大的字符串,我想提取所有內的鏈接一個href
的引號,我該怎麼做?
所以我只是想知道我怎麼會從以下字符串中提取http://www.google.com
:如何從Python中的字符串中提取子字符串?
<div class="asdf"><a href="http://www.google.com">
比方說,我有一堆在裏面鏈接一個巨大的字符串,我想提取所有內的鏈接一個href
的引號,我該怎麼做?
You need an HTML Parser。例如使用BeautifulSoup
:
from bs4 import BeautifulSoup
soup = BeautifulSoup(data)
for link in soup.select("div.asdf > a[href]"):
print(link["href"])
這將匹配所有具有href
屬性直接位於div
元件具有「ASDF」類中的鏈接。
你也可以找到所有的輸入文檔中的a
元素:
for link in soup.find_all("a", href=True):
print(link["href"])
或者:
for link in soup.select("a[href]"):
print(link["href"])
您應該使用'regex'或'BeautifulSoup'做到這一點。 –
我認爲他已經想要這個了,用'regex'標籤來判斷。 – TigerhawkT3
@ TigerhawkT3很好的通話,我沒有看過標籤。 –