2012-01-25 113 views
0

嗨我想從字符串中刪除HTML標記。 我試圖刪除這個標籤是Java查找html標記

<td class="gutter"> text text </td> 

我嘗試以下,但沒有奏效:

String regex = "<td class=\"gutter\">([^<]*)</td>"; 
Pattern p = Pattern.compile(regex); 
Matcher m = p.matcher(htmlstring); 
m.find()/m.matches() 

但不能似乎找到它了......我在做什麼錯?

+5

_Sigh ..._使用HTML解析器。 – SLaks

回答

0

如果你想從HTML剝離標籤,使用一個庫來做到這一點。不要推出自己的HTML解析器。

<plug shameless="true"> 

http://code.google.com/p/owasp-java-html-sanitizer/

的便捷配置HTML消毒劑用Java編寫的,它可以讓你包括HTML,同時防止XSS在Web應用程序由第三方撰寫。

1

不能使用正則表達式來處理HTML(或XML)。這是不可能的(不「硬」,但技術上是不可能的)。使用像Jsoup這樣的HTML解析器。然後很簡單,只需按照文檔。

+0

謝謝!我會看看這個! –