準html文本,看起來像: Simple<br> text <b>simple</b> text simple <BR><BR>text simple text
,我想解析它並創建dom document。但問題是未關閉標籤,當我試試這個:發生如何解析java中的準html文本?
DocumentBuilder builder = DocumentBuilderFactory.newInstance().newDocumentBuilder();
InputSource source = new InputSource(new StringReader(
Document doc = builder.parse(source);
錯誤:org.xml.sax.SAXParseException; The element type "br" must be terminated by the matching end-tag
我不想更換所有<br>
通過<br></br>
,任何解決方案或建議嗎?
您可能無法將其放入DOM中。您需要使用寬鬆的HTML解析器,如[jSoup](http://jsoup.org/) - 它會嘗試修復HTML。有點像網絡瀏覽器會。 –
我認爲這可以用HTMLEditorKit來完成...... – linski
@BoristheSpider不需要jSoup它可以用標準的Java來完成,請參閱我的答案。 – linski