2013-03-13 57 views
0

我有大意如下XML特定的元素:解析的XML使用Python/ET

<?xml version="xxx"?> 
<doc:document xmlns:doc="some value 1..."> 
    <rdf:RDF xmlns:rdf="some value 2..."> 
     <rdf:Description rdf:about="some value..."> 
      <dct:format xmlns:dct="http://someurl/">some value 3</dct:format> 
      <dct:title xmlns:dct="http://someurl/">some text of interest to me</dct:title> 
     </rdf:Description> 
    </rdf:RDF> 
</doc:document> 

我如何得到「一些感興趣的文字給我」使用Python/ETree?

在此先感謝您的幫助!

回答

1

你需要去尋找title元素通過指定的命名空間:

tree.find('.//dct:title', namespaces={'dct': 'http://purl.org/dc/terms/'}) 

在每個搜索一個namespaces映射通過,所以你也可以只指定了前面,重用:

nsmap = { 
    'dct': 'http://purl.org/dc/terms/', 
    'doc': 'http://www.witbd.org/xmlns/common/document/', 
    'rdf': 'http://www.w3.org/1999/02/22-rdf-syntax-ns#', 
} 

tree.find('.//dct:title', namespaces=nsmap) 

對於您的示例文件(與恢復的命名空間),給出:

>>> tree.find('.//dct:title', namespaces=nsmap) 
<Element '{http://purl.org/dc/terms/}title' at 0x105ec4690> 
>>> tree.find('.//dct:title', namespaces=nsmap).text 
'some text of interest to me' 

你也可以使用該命名空間中的XPath表達式:

tree.find('.//{http://purl.org/dc/terms/}title') 

這是使用什麼前綴和namespaces地圖內部確實反正。

+0

非常感謝您的幫助。 – user7289 2013-03-13 15:59:48

+0

順便說一下,這個方法在導入cElementTree時不起作用;只有ElementTree – user7289 2013-03-19 15:53:12