我的XML文件看起來像這樣提取HTML:的Python:從XML文件
<strings>
<string>Bla <b>One & Two</b> Foo</string>
</strings>
我想同時保持內部標籤,提取各<串>的內容。也就是說,我想看到下面的Python字符串:u「Bla <b> One & Two </b > Foo」。另外,我想我可以定居在U「布拉<b>一個&兩個</B >富」,然後嘗試更換實體自己。
我目前正在使用lxml,它允許我遍歷嵌套標籤,遺漏不在標籤內的文本,或者在所有文本內容(itertext)上丟失標籤信息。我可能錯過了一些東西。
如果可能,我寧願保留lxml,儘管如果需要的話我可以切換到另一個庫。
事實證明,不是使用node(),也可以使用child.iterdesndndants(),但是感謝我指出了正確的方向。 – miracle2k 2009-11-29 22:55:28