2012-05-02 60 views
1

此HTML:的javax揮杆HTML解析器不拾取的img標籤

<td height="79" valign="top" width="70"> 
      <a href="http://e.livinghuntington.com/HS?a=stuff" target="_blank" title="Follow us on Twitter: http://twitter.com/#!/HuntingtonLive"> link link link <img alt="Follow us on Twitter: http://twitter.com/#!/HuntingtonLive" border="0" height="79" src="http://webe.emv3.com/livinghuntington/images/tt.png" style="display:block;" width="70"/></a> 
     </td> 
</table> 
<table> 

和驗證碼:

public void handleStartTag(Tag tag, MutableAttributeSet attr, int pos) { 

    System.err.println("tag = " + tag); 

給出了這樣的輸出:

tag = td 
tag = a 
tag = table 

我嘗試過各種測試策略:如果我嵌套一個鏈接(我甚至不知道它是否是有效的html),它會正確地獲取內部鏈接。如果我將圖像從鏈接中拉出,它仍然不會拾取img。據我所知,它從來沒有拿起圖像標籤。在代碼或kludge中是否存在錯誤,或者這是HTML Parser無法修復的問題(所以我需要查看它並使用新的)?

+0

這是你的問題?是什麼賦予了? Java的HTMLEditorKit並不完美 - 實際上並不接近完美,這就是 – ControlAltDel

+0

它可以拾取任何其他自閉標籤嗎?嘗試''沒有/最後。 – Musa

回答

2

問題是img是簡單的標籤,所以不在startTag()下拾取。 handleSimpleTag()是要使用的處理程序。