LXML eTree iterparse深度

我試圖解析一些XML是按以下格式：LXML eTree iterparse深度

<label> 
     <name></name> 
     <sometag></sometag> 
     <sublabels> 
      <label></label> 
      <label></label> 
     </sublabel> 
</label>

與此

for event, element in etree.iterparse(gzip.GzipFile(f), events=('end',), tag='label'): 
    if event == 'end': 
     name = element.xpath('name/text()')

解析它產生，因爲

的空名變量

<sublabels> 
     <label></label> 
     <label></label> 
</sublabel>

問題：

是否有任何方法來設置iterparse的深度或忽略子標籤的標籤，而不是檢查它是否爲空？

來源

2016-07-29 abruski

說出來的第一件事想到

path = [] 
for event, element in etree.iterparse(gzip.GzipFile(f), events=('start', 'end')): 
    if event == 'start': 
     path.append(element.tag) 
    elif event == 'end': 
     if element.tag == 'label': 
      if not 'sublabels' in path: 
       name = element.xpath('name/text()') 
     path.pop()

來源

2016-08-02 10:08:27

這對我的作品，由以前的答案啓發：

name = None 
level = 0 
for event, element in etree.iterparse(gzip.GzipFile(f), events=('end', 'start'), tag='label'): 
    # Update current level 
    if event == 'start': level += 1; 
    elif event == 'end': level -= 1; 
    # Get name for top level label 
    if level == 0: 
     name = element.xpath('name/text()')

作爲一個替代的解決方案，解析整個文件，並使用XPath獲得頂級標籤名稱：

from lxml import html 

with gzip.open(f, 'rb') as f: 
    file_content = f.read() 
    tree = html.fromstring(file_content) 
    name = tree.xpath('//label/name/text()')

來源

2016-08-03 10:06:13

該文件是巨大的。一次解析洞洞事件不是一種選擇。 – abruski

LXML eTree iterparse深度

回答

相關問題