2012-11-16 65 views
0

我正在嘗試使用lxml來幫助我解析一些XML文件並將其輸出。但是,XML文件中有一些特殊字符。我不想取代它,因爲它太複雜而無法逃脫它並忽略它。另外,我不能強迫其他人生成格式良好的XML。如何使用Python處理lxml中的轉義字符串

有沒有什麼辦法可以讓我用lxml處理非格式良好的XML?

我可以正常閱讀:

parser = etree.XMLParser(recover=True) 
    root = etree.parse(sys.argv[1],parser=parser) 

但是,當我要打印的元素文本,它可以直到特殊字符時只打印的內容。

for element in root.iter("content"): 
    print("%s - %s attr - %s" % (element.tag, element.text, element.get("name"))) 

回答

0

處理Python中不完善的標記語言文件的流行選項是使用Beautiful Soup。它可以使用許多解析器,包括lxml。

你能發佈一些給你的問題的XML嗎?

相關問題