我剛剛發現了美麗的湯,這似乎很強大。我想知道是否有一種簡單的方法來提取文本「alt」字段。 一個簡單的例子是如何用美麗的湯提取文字「alt」
from bs4 import BeautifulSoup
html_doc ="""
<body>
<p>Among the different sections of the orchestra you will find:</p>
<p>A <img src="07fg03-violin.jpg" alt="violin" /> in the strings</p>
<p>A <img src="07fg03-trumpet.jpg" alt="trumpet" /> in the brass</p>
<p>A <img src="07fg03-woodwinds.jpg" alt="clarinet and saxophone"/> in the woodwinds</p>
</body>
"""
soup = BeautifulSoup(html_doc, 'html.parser')
print(soup.get_text())
這將導致
其中管絃樂隊的不同部分,你會發現:
一個在弦
一個在黃銅
A木管樂器
但我想有字符提取,這將使
其中管絃樂隊的不同部分內中高音場,你會發現:
小提琴的琴絃
在小號黃銅
甲單簧管和薩克斯在木管樂器
由於
看一看:http://stackoverflow.com/questions/2612548/extracting -an-attribute-value-with-beautifulsoup – JacobIRR