與LXML

解析XML塊考慮下面的XML：與LXML

<language>en-US</language> 
<provider>VenturesLLC</provider> 
<video> 
    <original_spoken_locale>en-US</original_spoken_locale> 
    <vendor_offer_code>TEST_VENDOR</vendor_offer_code> 
    <release_date>2011-01-15</release_date> 
    <title>Moving Forward</title> 
    <vendor_id>ASDF_ING_2012</vendor_id> 
</video>

我期待檢索整個<video>塊。然而，當我這樣做：

>>> f=open('metadata.xml') 
>>> contents=f.read() 
>>> node=etree.fromstring(contents) 
>>> node.xpath("//*[local-name()='video']")[0].text 
'\n

需要注意的是，如果我不喜歡的東西node.xpath("//*[local-name()='original_spoken_locale']")[0].text我得到的'en-US'正確的值。如何將我拉這個完整的文本，所以我可以得到：

text = """  
<video> 
    <original_spoken_locale>en-US</original_spoken_locale> 
    <vendor_offer_code>TEST_VENDOR</vendor_offer_code> 
    <release_date>2011-01-15</release_date> 
    <title>Moving Forward</title> 
    <vendor_id>ASDF_ING_2012</vendor_id> 
</video>"""

來源

2012-06-22 David542

你.text呼叫沒有工作，因爲你的視頻節點沒有文字 - 它具有其它子節點。您需要將這些節點轉換爲使用tostring

In [1]: from lxml import etree 

In [2]: xml = '''<xml> 
    ...: <language>en-US</language> 
    ...: <provider>VenturesLLC</provider> 
    ...: <video> 
    ...:  <original_spoken_locale>en-US</original_spoken_locale> 
    ...:  <vendor_offer_code>TEST_VENDOR</vendor_offer_code> 
    ...:  <release_date>2011-01-15</release_date> 
    ...:  <title>Moving Forward</title> 
    ...:  <vendor_id>ASDF_ING_2012</vendor_id> 
    ...: </video></xml>''' 

In [3]: tree = etree.fromstring(xml) 

In [4]: vid = tree.xpath('//video')[0] 

In [5]: etree.tostring(vid, pretty_print=True) 
Out[5]: '<video>\n <original_spoken_locale>en-US</original_spoken_locale>\n <vendor_offer_code>TEST_VENDOR</vendor_offer_code>\n <release_date>2011-01-15</release_date>\n <title>Moving Forward</title>\n <vendor_id>ASDF_ING_2012</vendor_id>\n</video>\n' 

In [6]: print _ 
<video> 
    <original_spoken_locale>en-US</original_spoken_locale> 
    <vendor_offer_code>TEST_VENDOR</vendor_offer_code> 
    <release_date>2011-01-15</release_date> 
    <title>Moving Forward</title> 
    <vendor_id>ASDF_ING_2012</vendor_id> 
</video>

來源

2012-06-22 19:03:28 Daenyth

你可以用'node.text_content（）'得到一個節點下的所有文本作爲單個字符串，或'node.itertext（）的字符串'遍歷每個文本節點的內容分別。 – spiralx

回答

相關問題