0
覆蓋文本,我們需要處理包含PCDATA元素,如下面的XML文件:元偏移和dom4j的
<corpus id="c01">
<text id="t01>
<sentence id="s01">Mary <instance id="i01">had</instance> a <instance id="i02">lamb</instance>.</sentence>
<sentence id="s02">...</sentence>
...
</text>
...
</corpus>
對於每個<文本>的各<句子>,我們需要填充的數據結構包含句子ID和句子所涵蓋的全文。然後,對於每個<實例>,我們需要填充包含實例ID及其在句子內的開始和結束位置的數據結構。 (我們不關心空白是否被標準化。)
因此,對於上面的例子中,我們基本上需要:
s.id = "s01"
s.text = "Mary had a lamb."
i1.id = "i01"
i1.start = 6
i1.end = 8
i2.id = "i02"
i2.start = 12
i2.end = 15
是否與dom4j的這樣做的方法嗎? Element.getText()方法跳過了子元素的文本,並且我沒有看到任何給出另一個元素的偏移量的方法。如果dom4j不適合這項任務,那麼更好的工具是什麼?