2011-07-12 72 views
0

我有一個XML文件,我想從某些標記中提取數據,這些標記只能嵌套在其他標記中,即包含我想要提取的數據的標記會出現在XML文檔的其他地方。使用minidom解析XML

示例XML:

<root> 
    <tag1>content I don't want</tag1> 
    <tag2>content I don't want</tag2> 
    <tag3>content I don't want</tag3> 
    <item> 
     <tag1>content I want</tag1> 
     <tag2>content I want</tag2> 
     <tag3>content I want</tag3> 
    </item> 
    <item> 
     <tag1>content I want</tag1> 
     <tag2>content I want</tag2> 
     <tag3>content I want</tag3> 
    </item> 
</root> 

的Python代碼(檢索所有數據,包括來自我不想標籤):

for counter in range(2): 
    variable0 = XML_Document.getElementsByTagName('item')[counter] 
    variable1 = XML_Document.getElementsByTagName('tag1')[counter].toxml(encoding="utf-8") 
    variable2 = XML_Document.getElementsByTagName('tag2')[counter].toxml(encoding="utf-8") 
    variable3 = XML_Document.getElementsByTagName('tag3')[counter].toxml(encoding="utf-8") 
    print counter 
    print variable1 
    print variable2 
    print variable3 

如何修改循環只訪問標籤中的數據只嵌套在物品標籤中?

+0

我喜歡外籍在Python的易用性。 http://docs.python.org/library/pyexpat.html –

回答

1

您可以隨時撥打getElementsByTagName()任何子節點:

for item in XML_Document.getElementsByTagName('item'): 
    tag1 = item.getElementsByTagName('tag1')[0].toxml(encoding="utf-8") 
    tag2 = item.getElementsByTagName('tag2')[0].toxml(encoding="utf-8") 
    tag3 = item.getElementsByTagName('tag3')[0].toxml(encoding="utf-8") 
    print tag1, tag2, tag3