1
此HTML:的javax揮杆HTML解析器不拾取的img標籤
<td height="79" valign="top" width="70">
<a href="http://e.livinghuntington.com/HS?a=stuff" target="_blank" title="Follow us on Twitter: http://twitter.com/#!/HuntingtonLive"> link link link <img alt="Follow us on Twitter: http://twitter.com/#!/HuntingtonLive" border="0" height="79" src="http://webe.emv3.com/livinghuntington/images/tt.png" style="display:block;" width="70"/></a>
</td>
</table>
<table>
和驗證碼:
public void handleStartTag(Tag tag, MutableAttributeSet attr, int pos) {
System.err.println("tag = " + tag);
給出了這樣的輸出:
tag = td
tag = a
tag = table
我嘗試過各種測試策略:如果我嵌套一個鏈接(我甚至不知道它是否是有效的html),它會正確地獲取內部鏈接。如果我將圖像從鏈接中拉出,它仍然不會拾取img。據我所知,它從來沒有拿起圖像標籤。在代碼或kludge中是否存在錯誤,或者這是HTML Parser無法修復的問題(所以我需要查看它並使用新的)?
這是你的問題?是什麼賦予了? Java的HTMLEditorKit並不完美 - 實際上並不接近完美,這就是 – ControlAltDel
它可以拾取任何其他自閉標籤嗎?嘗試''沒有/最後。 – Musa
沒有。在自閉/開 - 關和img/src設置的所有4種組合上失敗。它拿起標籤= 。我注意到它無法處理上的文本,並在上正確處理它,這看起來與@ ControlAltDel的評論一致,認爲它是一種垃圾分析器。也許我的img標籤不夠好,不適合它。 – djechlin