2013-10-10 41 views
0

我有一系列文本條目,我試圖清除HTML和XML。我現在用的是Java的Apache的百科全書StringEscapeUtils和一般如果一個String作爲使用他們處理事情不夠好:從文本中刪除HTML和XML

s = unescapeHtml(s); 
s = unescapeXml(s); 

但是,如果我有這樣的事情:

This is text. So is this. <img alt="" height="0" width="0" border="0"style="display:none" 
src="http://segment-pixel.invitemedia.com/pixel?code=TechBiz 
    &partnerID=167&key=segment"/><img alt="" height="0" width="0" border="0" style="display:none" src="http://pixel.quantserve.com/pixel/p-8bUhLiluj0fAw.gif?labels=pub.28834.rss.TechBiz 
    .7020,cat.TechBiz.rss"/> 

阿帕奇utils的沒有影響。

任何人都可以提出一種替代方法嗎?

回答

2

你可以嘗試使用Jsoup

String text = Jsoup.parse(html).text(); 

這將去掉所有的HTML。

+0

謝謝。我會試試這個。 Java Swing也有一個javax.swing.text.html.parser。*;哪些工作。 –