2014-10-04 166 views
3

我試圖在Python中解析XML文檔,以便我可以對數據進行操作並寫出新文件。那我一起工作的文件全是here,但這裏是摘錄:使用ElementTree無法獲取XML元素

<?xml version="1.0" encoding="UTF-8"?> 
<FMPXMLRESULT xmlns="http://www.filemaker.com/fmpxmlresult"> 
    <ERRORCODE>0</ERRORCODE> 
    <PRODUCT BUILD="09-11-2013" NAME="FileMaker" VERSION="ProAdvanced 12.0v5"/> 
    <DATABASE DATEFORMAT="M/d/yyyy" LAYOUT="" NAME="All gigs 88-07.fmp12" RECORDS="746" TIMEFORMAT="h:mm:ss a"/> 
    <METADATA> 
     <FIELD EMPTYOK="YES" MAXREPEAT="1" NAME="Country" TYPE="TEXT"/> 
     <FIELD EMPTYOK="YES" MAXREPEAT="1" NAME="Year" TYPE="TEXT"/> 
     <FIELD EMPTYOK="YES" MAXREPEAT="1" NAME="City" TYPE="TEXT"/> 
     <FIELD EMPTYOK="YES" MAXREPEAT="1" NAME="State" TYPE="TEXT"/> 
     <FIELD EMPTYOK="YES" MAXREPEAT="1" NAME="Theater" TYPE="TEXT"/> 
    </METADATA> 
    <RESULTSET FOUND="746"> 
     <ROW MODID="3" RECORDID="32"> 
      <COL> 
       <DATA/> 
      </COL> 
      <COL> 
       <DATA>1996</DATA> 
      </COL> 
      <COL> 
       <DATA>Pompano Beach</DATA> 
      </COL> 
      <COL> 
       <DATA>FL</DATA> 
      </COL> 
      <COL> 
       <DATA>First Presbyterian Church</DATA> 
      </COL> 
     </ROW> 
     <ROW MODID="3" RECORDID="33"> 
      <COL> 
       <DATA/> 
      </COL> 
      <COL> 
       <DATA>1996</DATA> 
      </COL> 
      <COL> 
       <DATA>Hilton Head</DATA> 
      </COL> 
      <COL> 
       <DATA>SC</DATA> 
      </COL> 
      <COL> 
       <DATA>Self Family Arts Center</DATA> 
      </COL> 
     </ROW> 
     <!-- snip many more ROW elements --> 
    </RESULTSET> 
</FMPXMLRESULT> 

最後,我想用從METADATA字段中的信息來分析在RESULTSET列,但現在我在處理數據時遇到麻煩。這裏是我試圖讓METADATA元素的內容:

import xml.etree.ElementTree as ET 

tree = ET.parse('giglist.xml') 
root = tree.getroot() 
print root 
metadata = tree.find("METADATA") 
print metadata 

此打印出:

<Element '{http://www.filemaker.com/fmpxmlresult}FMPXMLRESULT' at 0x10f982cd0> 
None 

爲什麼metadata空?我濫用find()方法嗎?

+1

你不能 '打印根' 您指定的根之前;錯字? – 2014-10-04 19:38:31

+0

@OlofBjarnason錯字。 (在帖子中,不在代碼中) – 2014-10-04 19:39:59

+0

FWIW,我發現xmltodict比elementtree更方便;它使xml更像json。 – user1277476 2014-10-04 20:28:04

回答

4

您需要處理命名空間。

但是,因爲只有給予默認命名空間,你可以找到使用以下語法元素:

import xml.etree.ElementTree as ET 

ns = 'http://www.filemaker.com/fmpxmlresult' 

tree = ET.parse('giglist.xml') 
root = tree.getroot() 

metadata = root.find("{%s}METADATA" % ns) 
print metadata # prints <Element '{http://www.filemaker.com/fmpxmlresult}METADATA' at 0x103ccbe90> 

下面是相關的線程,你可能希望看到:


UPD(得到結果的列表):

import xml.etree.ElementTree as ET 

ns = 'http://www.filemaker.com/fmpxmlresult' 

tree = ET.parse('giglist.xml') 
root = tree.getroot() 

keys = [field.attrib['NAME'] for field in root.findall(".//{%(ns)s}METADATA/{%(ns)s}FIELD" % {'ns': ns})] 
results = [dict(zip(keys, [col.text for col in row.findall(".//{%(ns)s}COL/{%(ns)s}DATA" % {'ns': ns})])) 
      for row in root.findall(".//{%(ns)s}RESULTSET/{%(ns)s}ROW" % {'ns': ns})] 

print results 

打印:

[ 
    {'City': 'Pompano Beach', 'Country': None, 'State': 'FL', 'Theater': 'First Presbyterian Church', 'Year': '1996'}, 
    {'City': 'Hilton Head', 'Country': None, 'State': 'SC', 'Theater': 'Self Family Arts Center', 'Year': '1996'} 
] 
+0

哦,我一直認爲命名空間只是XML噪聲和混亂。我會試一試;謝謝。 – 2014-10-04 20:01:24

+0

工作就像一個魅力。 – 2014-10-04 20:07:27

+0

這看起來也會返回''開始標記。有什麼方法可以避免這種情況,除了在使用結果時將其濾除? – 2014-10-04 20:22:00