2012-07-16 59 views
0

我有HTML頁面可以通過Python與Lxml解析。問題是我必須從HTML圖像標籤的值中取出,這些值沒有任何類或id屬性。就像這樣:從HTML中選擇圖像標記attr without class或id

<table cellspacing="0" cellpadding="0" border="0"> 
<tbody><tr> 
<td align="left" valign="top" style="padding: 0 10px 0 60px;"> 
<img src="/files/135.jpg" width="64" height="64"> 
</td> 
<td align="left" valign="middle"><h1>Archer/Арчер</h1> 
</td> 
</tr> 
</tbody></table> 

所以,解決我的任務我有問題 - 可能寫的jQuery般的表達,以選擇這個HTML圖像標記或我要提取通過迭代屬性的所有IMG標籤和獲取src-attribute,具有特定的寬度和高度?

+0

請問您可以發佈更多的html代碼?也許我們可以使用父選擇器。 – 2012-07-16 20:26:58

+0

我已更新我的帖子,謝謝。這是完整的HTML代碼,包含img-tag。 Upper是唯一的身體標記。 – 2012-07-16 20:29:32

回答

0

您應該嘗試xpath - 由lxml支持。 你可以使用Mozilla Firefox的firepath插件來玩xpath一下。 您的XPath表達式的端部可以是像(寬度> 64?) ............/IMG [@ BORDER = 「0」]

0

xpath查詢工作在您的樣品數據:

import lxml.html 

root = lxml.html.fromstring('your sample data').getroottree() 
root.xpath("//img[@width='64' and @height='64']/@src") 
# ['/files/135.jpg']