xmlns命名空間打破lxml

我想打開一個xml文件，並從某些標籤中獲取值。我做了很多，但這個特殊的XML給我一些問題。下面是XML文件的一部分：xmlns命名空間打破lxml

<?xml version='1.0' encoding='UTF-8'?> 
<package xmlns="http://apple.com/itunes/importer" version="film4.7"> 
    <provider>filmgroup</provider> 
    <language>en-GB</language> 
    <actor name="John Smith" display="Doe John"</actor> 
</package>

這裏是我的Python代碼示例：

metadata = '/Users/mylaptop/Desktop/Python/metadata.xml' 
from lxml import etree 
parser = etree.XMLParser(remove_blank_text=True) 
open(metadata) 
tree = etree.parse(metadata, parser) 
root = tree.getroot() 
for element in root.iter(tag='provider'): 
    providerValue = tree.find('//provider') 
    providerValue = providerValue.text 
    print providerValue 
tree.write('/Users/mylaptop/Desktop/Python/metadataDone.xml', pretty_print = True, xml_declaration = True, encoding = 'UTF-8')

當我跑這一點，找不到供應商的標籤或它的值。如果我刪除xmlns="http://apple.com/itunes/importer"，那麼所有工作都按預期工作。我的問題是我如何刪除這個命名空間，因爲我對此並不感興趣，所以我可以使用lxml獲取我需要的標記值？

來源

2013-08-05 speedyrazor

的provider標籤是在http://apple.com/itunes/importer命名空間，所以你要麼需要使用完全合格的名稱

{http://apple.com/itunes/importer}provider

，或者使用的LXML方法有the namespaces parameter，如root.xpath之一。然後可以用一個命名空間前綴（例如ns:provider）指定：

from lxml import etree 
parser = etree.XMLParser(remove_blank_text=True) 
tree = etree.parse(metadata, parser) 
root = tree.getroot() 
namespaces = {'ns':'http://apple.com/itunes/importer'} 
items = iter(root.xpath('//ns:provider/text()|//ns:actor/@name', 
         namespaces=namespaces)) 
for provider, actor in zip(*[items]*2): 
    print(provider, actor)

產量

('filmgroup', 'John Smith')

注意，上面使用的XPath假定<provider>和<actor>元件總是出現在交替。如果這是不正確的，那麼當然有方法來處理它，但代碼變得有點冗長：

for package in root.xpath('//ns:package', namespaces=namespaces): 
    for provider in package.xpath('ns:provider', namespaces=namespaces): 
     providerValue = provider.text 
     print providerValue 
    for actor in package.xpath('ns:actor', namespaces=namespaces): 
     print actor.attrib['name']

來源

2013-08-05 21:22:59 unutbu

那優秀的Ubuntu，作品一種享受，歡呼聲。 – speedyrazor

ubuntu，我如何找到一個標籤的屬性，我已經推薦了我的原始示例，所以我正在尋找演員姓名的值= – speedyrazor

如果你有'element'，你可以通過'element .attrib [ '名稱']'。但是，如果您正在從XML文件中提取'provider'和'actor'元素，則可以使用'|'（或）語法將單個XPath設置爲同時執行。我編輯了這篇文章來展示我的意思。 – unutbu

我的建議是不能忽視的命名空間，但，相反，要考慮到這一點。我爲django-quickbooks庫的工作寫了一些相關函數（稍作修改）。通過這些功能，你應該能夠做到這一點：

providers = getels(root, 'provider', ns='http://apple.com/itunes/importer')

下面是這些功能：

def get_tag_with_ns(tag_name, ns): 
    return '{%s}%s' % (ns, tag_name) 

def getel(elt, tag_name, ns=None): 
    """ Gets the first tag that matches the specified tag_name taking into 
    account the QB namespace. 

    :param ns: The namespace to use if not using the default one for 
    django-quickbooks. 
    :type ns: string 
    """ 

    res = elt.find(get_tag_with_ns(tag_name, ns=ns)) 
    if res is None: 
     raise TagNotFound('Could not find tag by name "%s"' % tag_name) 
    return res 

def getels(elt, *path, **kwargs): 
    """ Gets the first set of elements found at the specified path. 

    Example: 
     >>> xml = (
     "<root>" + 
      "<item>" + 
       "<id>1</id>" + 
      "</item>" + 
      "<item>" + 
       "<id>2</id>"* + 
      "</item>" + 
     "</root>") 
     >>> el = etree.fromstring(xml) 
     >>> getels(el, 'root', 'item', ns='correct/namespace') 
     [<Element item>, <Element item>] 
    """ 

    ns = kwargs['ns'] 

    i=-1 
    for i in range(len(path)-1): 
     elt = getel(elt, path[i], ns=ns) 
    tag_name = path[i+1] 
    return elt.findall(get_tag_with_ns(tag_name, ns=ns))

來源

2013-08-05 21:26:08 Josh

xmlns命名空間打破lxml

回答

相關問題