我有一個HTML文件,該文件類似於這樣的東西:如何使用beautifulsoup提取嵌套標記結構中的屬性值?
<html>
...
<li class="not a user"> </li>
<li class="user">
<a href="abs" ...> </a>
</li>
<li class="user">
<a href="bss" ...> </a>
</li>
...
</html>
鑑於上述輸入我想帶class =「用戶」解析裏的標籤,並獲得HREF的作爲輸出的值
。這可能在python中使用beautifulsoup?
我的解決辦法是:
data="the above html code snippet"
soup=BeautifulSoup(data)
listset=soup("li","user")
for list in listset:
attrib_value=[a['href'] for a in list.findAll('a',{'href':True})]
很顯然,我的地方,它只是列出了最近錨標記的href屬性值有一個錯誤。
你爲什麼要在每個循環中重複設置attrib_value?每次迭代你都在做什麼? – 2012-07-17 00:33:18
問題是當我想要一個屬性值列表時,我只是在每次迭代時重新分配! :P – abhixec 2012-07-17 19:19:22