2011-03-21 27 views
4

我正在解析XML文檔。我做getTextContent()從我想要的特定部分獲取文本。我得到的文字有像從XML中提取的文本中的標籤條

<italic> </italic> 
<sub> </sub> 

..等等。我想剝離這些標籤,只保留文本,而不管標籤是什麼。

我的文件看起來像這樣

<article> 
    <sec>Section 1</sec> 
    <sec>Section 2 
     <title>Title1</title> 
     <sec> 
     <title>Subtitle1</title> 
     <p>........<italic> </italic>...</p> 
     </sec> 
     <sec> 
     <title>Subtitle2</title> 
     <p>........<sub> </sub>...</p> 
     </sec> 
    </sec> 
</article> 

我需要所有的<p>...</p>沒有在它的標籤文本。 我該怎麼辦?我正在考慮識別所有標籤,並將其替換爲""。但是必須有更好的方法。

感謝

+1

儘量集中你的問題。如果你正在解析XML,你爲什麼要刪除標籤?你想輸入什麼,輸出什麼? – 2011-03-21 18:52:07

回答

5

你可以將此REG前到getTextContent的)結果(

String noHTMLString = htmlString.replaceAll("\\<.*?\\>", ""); 
+0

適合我。謝謝 – y2p 2011-03-21 19:28:16

0

你可以使用perl腳本要經過文件,然後使用s/ \< .* \> //xg;擺脫所有的標籤。