我有包含XHTML字符實體某些字符串:如何解碼Java中的XHTML和/或HTML5實體?
"They're quite varied"
"Sometimes the string ∈ XML standard, sometimes ∈ HTML4 standard"
"Therefore -> I need an XHTML entity decoder."
"Sadly, some strings are not valid XML & are not-quite-so-valid HTML <- but I want them to work, too."
有沒有簡單的方法來實體解碼? (我正在使用Java)
我目前使用StringEscapeUtils.unescapeHtml4(myString.replace("'", "\'"))
作爲臨時黑客。不幸的是,org.apache.commons.lang3.StringEscapeUtils
有unescapeHtml4
和unescapeXML
,但沒有unescapeXhtml
。
編輯:我想處理無效的XML,比如我想「& &xyzzy;」解碼爲「& &xyzzy;」
編輯:我認爲HTML5具有幾乎相同的字符實體XHTML,所以我覺得HTML 解碼器也可以。
XHTML和HTML實體是否等效? –
提示:XHTML是有效的XML –
@SotiriosDelimanolis:不會。這是問題所在。 –