從HTML中選擇圖像標記attr without class或id

我有HTML頁面可以通過Python與Lxml解析。問題是我必須從HTML圖像標籤的值中取出，這些值沒有任何類或id屬性。就像這樣：從HTML中選擇圖像標記attr without class或id

<table cellspacing="0" cellpadding="0" border="0"> 
<tbody><tr> 
<td align="left" valign="top" style="padding: 0 10px 0 60px;"> 
<img src="/files/135.jpg" width="64" height="64"> 
</td> 
<td align="left" valign="middle"><h1>Archer/Арчер</h1> 
</td> 
</tr> 
</tbody></table>

所以，解決我的任務我有問題 - 可能寫的jQuery般的表達，以選擇這個HTML圖像標記或我要提取通過迭代屬性的所有IMG標籤和獲取src-attribute，具有特定的寬度和高度？

來源

2012-07-16 Eugene Shmorgun

請問您可以發佈更多的html代碼？也許我們可以使用父選擇器。 – 2012-07-16 20:26:58

我已更新我的帖子，謝謝。這是完整的HTML代碼，包含img-tag。 Upper是唯一的身體標記。 – 2012-07-16 20:29:32

您應該嘗試xpath - 由lxml支持。你可以使用Mozilla Firefox的firepath插件來玩xpath一下。您的XPath表達式的端部可以是像（寬度> 64？） ............/IMG [@ BORDER = 「0」]

來源

2012-07-16 20:54:31

這xpath查詢工作在您的樣品數據：

import lxml.html 

root = lxml.html.fromstring('your sample data').getroottree() 
root.xpath("//img[@width='64' and @height='64']/@src") 
# ['/files/135.jpg']

來源

2012-07-16 20:57:46

從HTML中選擇圖像標記attr without class或id

回答

相關問題