我有一堆XML文件以及DTD,每個文件都有一個<TEXT>
部分。爲TEXT
元素的DTD如下:如何從Java中的XML文件提取所有PCDATA(文本)?
<!ELEMENT TEXT - - (AGENCY* | ACTION* | SUMMARY* | DATE* | FOOTNAME* | FURTHER* | SIGNER* | SIGNJOB* | FRFILING* | BILLING* | FOOTNOTE* | FOOTCITE* | TABLE* | ADDRESS* | IMPORT* | #PCDATA)+ >
下面是一個示例XML文件是什麼樣子:
<ROOT>
...
<TEXT>
Some text that I want to extract
<SUMMARY> Some more text </SUMMARY>
<AGENCY>
An agency
<SIGNER> Bob Smith </SIGNER>
</AGENCY>
</TEXT>
...
</ROOT>
最後,我想提取
我要提取的一些文字 部分文字 代理機構 Bob Smith
但是,每個<TEXT>
塊在元素/排序方面顯然不一樣,或者每走一步都不一樣。有沒有在Java中使用DOM的方法,我可以做到這一點?我更喜歡在SAX上使用DOM,但如果使用SAX更容易,那就這樣吧。
在此先感謝
你說得對,它是SGML,但到目前爲止它已經是XML兼容的 – neptune 2011-05-13 11:02:13