從XML中提取的文本中的標籤條

我正在解析XML文檔。我做getTextContent()從我想要的特定部分獲取文本。我得到的文字有像從XML中提取的文本中的標籤條

<italic> </italic> 
<sub> </sub>

..等等。我想剝離這些標籤，只保留文本，而不管標籤是什麼。

我的文件看起來像這樣

<article> 
    <sec>Section 1</sec> 
    <sec>Section 2 
     <title>Title1</title> 
     <sec> 
     <title>Subtitle1</title> 
     <p>........<italic> </italic>...</p> 
     </sec> 
     <sec> 
     <title>Subtitle2</title> 
     <p>........<sub> </sub>...</p> 
     </sec> 
    </sec> 
</article>

我需要所有的<p>...</p>沒有在它的標籤文本。我該怎麼辦？我正在考慮識別所有標籤，並將其替換爲""。但是必須有更好的方法。

感謝

來源

2011-03-21 y2p

儘量集中你的問題。如果你正在解析XML，你爲什麼要刪除標籤？你想輸入什麼，輸出什麼？ – 2011-03-21 18:52:07

你可以將此REG前到getTextContent的）結果（

String noHTMLString = htmlString.replaceAll("\\<.*?\\>", "");

來源

2011-03-21 19:23:12

適合我。謝謝 – y2p 2011-03-21 19:28:16

你可以使用perl腳本要經過文件，然後使用s/ \< .* \> //xg;擺脫所有的標籤。

來源

2011-03-21 18:58:21

從XML中提取的文本中的標籤條

回答

相關問題