2014-04-01 60 views
0

正則表達式的第一關閉HTML標記之後的所有內容,以獲得第一結束標記之後的所有內容「 - >」正則表達式來獲得Java中

"<a href " till the end. 

我怎麼之前遇到過嗎?我不擅長的正則表達式:/

如:

<img class="abc" src="abc.jpg"> blah blah blah&nbsp;<a 
href="http://en.wikipedia.org/wiki">abc defg hijk lmnop</a>&nbsp; blah 

預期輸出:

等等等等等等等等abc defg hijk lmnop

+0

http://blog.codinghorror.com/parsing-html-the-cthulhu-way/ – Thomas

回答

0

試試這個:

htmls = htmls.replaceAll(".*?>(?=.*?<a href)", ""); 

它意味着刪除所有內容直到結束標記,即第一個之前10

0

長話短說,不能用正則表達式解析HTML,因爲HTML不是常規語言。請參閱here進行全面討論。