Python的LXML - 獲取標記的文字

的指數我有一個XML文件，類似格式DOCX，即：Python的LXML - 獲取標記的文字

<w:r> 
    <w:rPr> 
    <w:sz w:val="36"/> 
    <w:szCs w:val="36"/> 
    </w:rPr> 
    <w:t>BIG_TEXT</w:t> 
</w:r>

編輯：我需要在源XML獲得「BIG_TEXT」的指標，像：

from lxml import etree 
text = open('/devel/tmp/doc2/word/document.xml', 'r').read() 

root = etree.XML(text) 

start = 0 
for e in root.iter("*"): 
    if e.text: 
     offset = text.index(e.text, start) 
     l = len(e.text) 
     print 'Text "%s" at offset %s and len=%s' % (e.text, offset, l) 
     start = offset + l

我可以從當前索引+ len（文本）的位置開始新的搜索，但有沒有另一種方式？元素可能有一個字符，例如w。它會找到w的索引，而不是標籤文本的索引w。

來源

2012-09-10 night-crawler

你期望的值的索引有哪些？行號+列？字節偏移量？到目前爲止您嘗試了什麼，但沒有奏效？ –

我正在尋找一個類似的解決方案（用於快速查找的大型xml文件中的節點索引）。

AFAIK，lxml只提供源代碼，這是不夠的。 Cf API：Original line number as found by the parser or None if unknown.
但expat提供文件中的確切偏移量：CurrentByteIndex。
- 從start_element獲取處理程序，它返回標記的開始（即'<'）偏移量。
- 從char_data處理程序獲取，它返回數據的開始（例如您的示例中的'B'）偏移量。

例子：

import xml.parsers.expat 

# handler functions for parser events, and housekeeping. 
class handler : 
    def __init__(self, current_parser) : 
     #tag of interest 
     self.TARGET_TAG = "w:t" 

     #set up parser 
     self.parser = current_parser 
     self.parser.StartElementHandler = self.start_element 
     self.parser.EndElementHandler = self.end_element 
     self.parser.CharacterDataHandler = self.char_data 

     self.target_tag_met = False 
     self.index = None 

    def start_element(self, name, attrs): 
     self.target_tag_met = (name == self.TARGET_TAG) 

    def end_element(self, name) : 
     self.target_tag_met = False 

    def char_data(self, data): 
     if self.target_tag_met : 
     self.index = self.parser.CurrentByteIndex 

#open file in binary mode for robuster byte offsets. 
xmlFile = open("so_test.xml", 'rb') 

p = xml.parsers.expat.ParserCreate() 
h = handler(p) 

p.ParseFile(xmlFile) 
print (h.index)

來源

2012-09-17 16:26:56 YvesgereY

Python的LXML - 獲取標記的文字

回答

相關問題