2012-07-09 82 views
1

可能重複:
Java: How to decode HTML character entities in Java like HttpUtility.HtmlDecode?Java的正則表達式轉換

我有這種格式&#039

在這種情況下

編碼的一些特殊字符的字符串數據編碼是一個「符號,一個單引號。

因此,例如"the citizen&#039s home"應該顯示爲"the citizen's home",但它不會。

不幸的是,這是不被解釋爲這樣的,我需要分析所有我的字符串的這些東西,並將其轉換

第一:什麼是所謂的該格式,這將幫助我找到一個轉換方法

第二:你知道修理我的琴絃的方法嗎?

+1

這種格式被稱爲:HTML實體(十進制)。 – 2012-07-09 18:58:17

回答

3

不需要重新發明輪子:Apache Commons Lang的StringEscapeUtils.unescapeHtml4(String)是你想要的。

將包含實體的字符串轉義爲包含 對應於轉義的實際Unicode字符的字符串。支持 HTML 4.0實體。

例如,串"&lt;Fran&ccedil;ais&gt;"將成爲 "<Français>"

如果一個實體是無法識別的,它被單獨留在家中,並逐字 插入結果字符串。例如"&gt;&zzzz;x"將變成">&zzzz;x"

相關問題