HTML有一個空元素的概念,如MDN上列出。然而,美麗的湯似乎沒有妥善處理:正確地使用美麗的湯解析空html標記
import bs4
soup = bs4.BeautifulSoup(
'<div><input name=the-input><label for=the-input>My label</label></div>',
'html.parser'
)
print(soup.contents)
我得到:
[<div><input name="the-input"><label for="the-input">My label</label></input></div>]
即輸入包裝了標籤。
問題:有沒有什麼辦法可以得到美麗的湯來正確解析這個問題?還是有沒有找到我還沒找到的這種行爲的官方解釋?
至少,我希望是這樣的:
[<div><input name="the-input"></input><label for="the-input">My label</label></div>]
即輸入在標籤之前自動關閉。
謝謝,有用的鏈接要注意! – daphtdazz