2013-01-16 31 views
1

我正在嘗試使用python解析maven項目定義以提取版本。使用python檢索具有未知名稱空間的元素的內容

項目定義是這樣的:

<?xml version="1.0" encoding="UTF-8" standalone="no"?> 
<project xmlns="http://maven.apache.org/POM/4.0.0" 
    xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
    xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 
         http://maven.apache.org/maven-v4_0_0.xsd"> 
    <modelVersion>4.0.0</modelVersion> 

    <groupId>...</groupId> 
    <artifactId>...</artifactId> 
    <version>1.6.0-SNAPSHOT</version> 
    ... 
</project> 

我可以用提取的版本:

root = ET.fromstring(xml) 
version = root.find('./p:version', { 'p': 'http://maven.apache.org/POM/4.0.0' }) 
print(version.text) 

prints: 1.6.0-SNAPSHOT 

然而,使用的命名空間可能會改變,我不想依靠這個。有沒有辦法提取命名空間,以便在後續的xpath表達式中使用?

我嘗試以下,看看是否是XMLNS自身暴露,但沒有運氣:

root = ET.fromstring(xml) 
for k in root.attrib: 
    print('%s => %s' % (k, root.attrib[k])) 

prints: {http://www.w3.org/2001/XMLSchema-instance}schemaLocation => http://maven.apache.org/POM/4.0.0 http://maven.apache.org/maven-v4_0_0.xsd 
+0

poss [使用Python Elementree訪問XMLNS屬性?](http:// stackoverflow。com/questions/1953761/access-xmlns-attribute-with-python-elementree) –

回答

2

但是,使用的命名空間可能會改變,我不想依賴於此。

你是說名稱空間uri可能改變,或者前綴可能嗎?如果它只是前綴,那麼這不是問題,因爲重要的是XPath中的前綴與您提供給XPath評估程序的前綴匹配。在任何一種情況下,自動檢測命名空間可能都是一個糟糕的調用。假設某人決定開始生成XML這樣的:

<proj:project xmlns:proj="http://maven.apache.org/POM/4.0.0" 
xmlns:other="http://maven.apache.org/POM/5.0.0" 
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 
        http://maven.apache.org/maven-v4_0_0.xsd"> 

這仍然是完美呈現在同一個命名空間爲您的示例XML,但你不知道的是,proj前綴就是你要找的命名空間前綴對於。

我認爲Apache不太可能突然改變其官方XML格式之一的命名空間,但如果你真的擔心它,應該總是有選擇使用local-name()來命名空間 - agnostically找到你正在尋找一個節點:

version = root.find('./*[local-name() = "version"]') 

而且,我不熟悉的ElementTree庫,但你可以嘗試這個嘗試獲得有關XML文檔的命名空間的信息,只是爲了看看你可以:

namespaces = root.findall('//namespace::*') 
+0

Thankyou。我無法獲得local-name()謂詞的工作(看起來像ElementTree的xpath支持是有限的)。所以我想我只是依靠Apache而不是很快發佈另一個版本:-) – toolkit

2

不幸的是,ElementTree命名空間的支持是相當不完整。

你需要使用來自xml.etree.ElementTree模塊內部的方法來獲得一個命名空間映射出:

_, namespaces = ET._namespaces(root, 'utf8') 

namespaces現在是URI作爲密鑰,並且前綴爲值的字典。您可以改用lxml代替。該庫實現相同的ElementTree API,但已大大增強了該API。

例如,每個節點都包含一個.nsmap屬性,它將前綴映射到URI,包括鍵None下的默認名稱空間。

相關問題