在web上發現的一個獨特的html案例中,有一個html文檔在父HTML標籤中有多個html標籤。我想解析html標籤的內容。任何人都可以指示我這樣做嗎?如何使用BeautifulSoup解析HTML標籤內部的HTML標籤的內容?
在此先感謝。
編輯1: 使用BeautifulSoup
soup = BeautifulSoup(html, "lxml")
只給出父html和在它存在的標籤。
但是,我假設瀏覽器是否能夠呈現HTML BS應該能夠解析它。這個假設是否正確?
編輯2: 實際上,html是一個格式不正確的html(我在這裏假設),這是我用beautifulsoup解析的html,我只是得到表格和第一個(最外面的)html。如果我手動刪除多個HTML標籤,只保留1個HTML標籤,我可以解析BS中的表格。所以,問題是「有沒有辦法來解析下面的html和獲取文件從最裏面的數據,或者所有的表?
<!DOCTYPE html>
<html>
<head>
<title>Some Title</title>
</head>
<body>
some html to display the tables.
<html>
<head></head>
<title>Some other title</title>
<body>
some html to display even more tables.
</body>
</html>
</body>
</html>
,如果你給的網址,並解釋你正在嘗試從中提取會是什麼幫助。 –