3
的指數我有一個XML文件,類似格式DOCX,即:Python的LXML - 獲取標記的文字
<w:r>
<w:rPr>
<w:sz w:val="36"/>
<w:szCs w:val="36"/>
</w:rPr>
<w:t>BIG_TEXT</w:t>
</w:r>
編輯: 我需要在源XML獲得「BIG_TEXT」的指標,像:
from lxml import etree
text = open('/devel/tmp/doc2/word/document.xml', 'r').read()
root = etree.XML(text)
start = 0
for e in root.iter("*"):
if e.text:
offset = text.index(e.text, start)
l = len(e.text)
print 'Text "%s" at offset %s and len=%s' % (e.text, offset, l)
start = offset + l
我可以從當前索引+ len(文本)的位置開始新的搜索,但有沒有另一種方式?元素可能有一個字符,例如w
。它會找到w
的索引,而不是標籤文本的索引w
。
你期望的值的索引有哪些?行號+列?字節偏移量?到目前爲止您嘗試了什麼,但沒有奏效? –