我試圖從<span class= ''>
報廢。該代碼看起來像這樣的網頁上,我再殺:BeautifulSoup Scrapping Span Class HTML
< span class = "catnum"> Disc Number </span>
"1"
<br>
< span class = "catnum"> Track Number </span>
"1"
< br>
< span class = "catnum" > Duration < /span>
"5:28"
<br>
什麼我需要是</span>
標籤後,這些數字。我還應該提到,我正在編寫一個更大的代碼段,它將取消1200個站點,並且這將不得不循環1200個站點,引號中的數字將逐頁更改。
我想這個代碼作爲測試在一個頁面上:
from bs4 import BeautifulSoup
soup = BeautifulSoup (open("Smith.html"), "html.parser")
for tag in soup.findAll('span'):
if tag.has_key('class'):
if tag['class'] == 'catnum':
print tag.string
我知道這將打印所有的「跨級」的標籤,而不僅僅是三個我想,但我想我仍然會對其進行測試看它是否工作,我得到這個錯誤:
/Library/Python/2.7/site-packages/bs4/element.py:1527: UserWarning: has_key is deprecated. Use has_attr("class") instead. key))
'[span.next_sibling.strip()在soup.select跨度( 「span.catnum」)]' –