2013-10-16 66 views
0

我面臨一個非常棘手的問題,它是以下幾點:Java消除html字符串中的不允許字符

我有一些HTML格式的字符串。它們是由文檔元素生成的,文檔在RTF中編輯並保存爲HTML(以在網站上顯示)。

現在的問題是,對HTML進行解析的一些RTF元素似乎在html中不可用,導致它崩潰。 html中的一個不允許的字符是%0b

根據http://www.tutorialspoint.com/html/html_url_encoding.htm它沒有功能,或者我不明白爲什麼它需要(事實上,它甚至不可複製)。

我現在的問題是:是否有一個函數(我已經搜索過)能夠消除格式化的rtf2html-string的所有非html字符?

我只需要以消除他們當HTML被加載,所以不會有任何顯示問題

+0

「crasch」的確切錯誤信息是什麼?你也可以發佈你的HTML的相關片段,也可以發佈頭部(帶有編碼信息)。 –

+0

你能舉個例子嗎? – Jerry

回答

0

被Apache Commons Lang中提供的使用方法

import org.apache.commons.lang.StringEscapeUtils; 
String afterDecoding = StringEscapeUtils.unescapeHtml(beforeDecoding); 

感謝:@jlordo

或者您可以使用replaceAll("%0b", "");