從零代碼剝離出來的Java字符串的HTML標籤

我知道這個問題是非常類似於this one等。我有同樣的問題（如何從Java字符串去除HTML標記？）增加了約束，我不想向我的代碼添加任何依賴項（Apache Commons，Spring等）。從零代碼剝離出來的Java字符串的HTML標籤

所以我正在尋找很多這些其他框架所使用的HTML標籤剝離算法的「純Java SE」風格，但並不確定從哪裏開始。提前致謝。

來源

2013-03-19 IAmYourFaja

*「..我不希望任何依賴關係（阿帕奇百科全書，彈簧等）添加到我的代碼。」 *看.magic'包。或者換一種說法，爲什麼您認爲如果J2SE內置了第三方基於Java的API來解析HTML，您爲什麼會這麼做呢？ – 2013-03-19 10:13:30

難道你不能模擬一系列'String.replaceAll'調用引用的問題的可接受解決方案嗎？ – 2013-03-19 10:13:52

轉義HTML和剝離HTML標籤完全不同。你想要做哪一件？ – nhahtdh 2013-03-19 10:14:13

如果不使用一個HTMLEditorKit明確：在java的`

String html = "<html>..."; 
    JTextPane pane = new JTextPane(); 
    pane.setContentType("text/html"); 
    pane.setText(html); 
    StyledDocument doc = pane.getStyledDocument(); 
    try { 
     System.out.println("Text: " + doc.getText(0, doc.getLength())); 
    } catch (BadLocationException ex) { 
     Logger.getLogger(NewJFrame.class.getName()).log(Level.SEVERE, null, ex); 
    }

來源

2013-03-19 10:35:15

從零代碼剝離出來的Java字符串的HTML標籤

回答

相關問題