可能重複:
Java: How to decode HTML character entities in Java like HttpUtility.HtmlDecode?如何使用Java解碼html代碼?
我需要提取從html
文件的段落(如在StackOverflow上title
)。
我可以在Java中使用正則表達式來提取我需要的字段,但我必須獲得decode
字段。
例
字段中提取:解碼後
Paging Lucene's search results (with **;** among **'** and **s**)
領域:
Paging Lucene's search results
是否有任何的java類,讓我對這些HTML代碼的轉換?
您是否包含HTML標記? –
是的,但提取的字段不包含標籤 – user
對於初學者,[使用正則表達式來解析HTML](http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-包含標籤)是完全錯誤的第一位。只需像Jsoup一樣使用[HTML解析器](http://stackoverflow.com/questions/3152138/what-are-the-pros-and-cons-of-the-leading-java-html-parsers)。一個體面的人會馬上爲你隱藏HTML。 – BalusC