我目前使用BeautifulSoup來提取HTML元素和屬性。
我也想知道提取的每個元素的嵌套級別。如何使用BeautifulSoup提取HTML元素的嵌套級別?
例如:
示例HTML:
<html>
<head>
<title>Element Attributes Test</title>
</head>
<body>
<div id="abc">
<ol id="def">
<li class="testItem"> <a href="http://testpage.html">
</li>
<li class="testItem"> <table id="testTable">
<tr>
<td>
<div id="testDiv">
</div>
</td>
</tr>
</table>
</li>
</ol>
</div>
</body>
</html>
我想獲得的路徑信息如在路徑列輸出中的特定元素。
----------------------------------
Element | Attribute | Path
----------------------------------
html | None | document
----------------------------------
head | None | html
----------------------------------
title | None | html.head
----------------------------------
body | None | html
----------------------------------
div | id="abc" | html.body
-----------------------------------
ol | id="def" | html.body.div
-----------------------------------
li | class=".."| html.body.div.ol
-----------------------------------
a | href=".." | html.body.div.ol.li
-----------------------------------
li | class=".."| html.body.div.ol
-----------------------------------
table | id="..." | html.body.div.old.li
-----------------------------------
tr | None | html.body.div.li.table
-----------------------------------
我能夠提取元素及其關聯的屬性,但無法找到合適的方法來獲取該特定元素的路徑。
如何使用BeautifulSoup提取相同的圖像? 有沒有其他庫可以用來提取它們?
在此先感謝。
太謝謝你了。 – user1652054