2013-03-19 29 views
0

我知道這個問題是非常類似於this one。我有同樣的問題(如何從Java字符串去除HTML標記?增加了約束,我不想向我的代碼添加任何依賴項(Apache Commons,Spring等)。從零代碼剝離出來的Java字符串的HTML標籤

所以我正在尋找很多這些其他框架所使用的HTML標籤剝離算法的「純Java SE」風格,但並不確定從哪裏開始。提前致謝。

+3

*「..我不希望任何依賴關係(阿帕奇百科全書,彈簧等)添加到我的代碼。」 *看.magic'包。或者換一種說法,爲什麼您認爲如果J2SE內置了第三方基於Java的API來解析HTML,您爲什麼會這麼做呢? – 2013-03-19 10:13:30

+0

難道你不能模擬一系列'String.replaceAll'調用引用的問題的可接受解決方案嗎? – 2013-03-19 10:13:52

+1

轉義HTML和剝離HTML標籤完全不同。你想要做哪一件? – nhahtdh 2013-03-19 10:14:13

回答

0

如果不使用一個HTMLEditorKit明確:在java的`

String html = "<html>..."; 
    JTextPane pane = new JTextPane(); 
    pane.setContentType("text/html"); 
    pane.setText(html); 
    StyledDocument doc = pane.getStyledDocument(); 
    try { 
     System.out.println("Text: " + doc.getText(0, doc.getLength())); 
    } catch (BadLocationException ex) { 
     Logger.getLogger(NewJFrame.class.getName()).log(Level.SEVERE, null, ex); 
    }