-1
我有以下代碼:xml.etree.ElementTree.ParseError:沒有很好地形成
from xml.etree import ElementTree
file_path = 'some_file_path'
document = ElementTree.parse(file_path, ElementTree.XMLParser(encoding='utf-8'))
如果我的XML看起來像下面這給我的錯誤:「xml.etree.ElementTree.ParseError:沒有很好地形成」
<?xml version="1.0" encoding="utf-8" ?>
<pages>
<page id="1">
<textbox id="0">
<textline bbox="53.999,778.980,130.925,789.888">
<text font="GCCBBY+TT228t00" bbox="60.598,778.980,64.594,789.888" size="10.908">H</text>
<text font="GCCBBY+TT228t00" bbox="64.558,778.980,70.558,789.888" size="10.908">-</text>
<text>
</text>
</textline>
</textbox>
</page>
</pages>
在昇華或記事本++我看到高亮字符,例如ACK,DC4,或STX這似乎是罪魁禍首(它們中的一個顯示爲‘ - ’在上面的XML在第二個「文本」節點)。如果我刪除這些字符,它的作品。這些是什麼,我該如何解決這個問題?
如果您的XML格式不正確,那麼您沒有有效的XML文檔。修復你的輸入。 –
你是什麼意思XML不是良構? xml由pdfMiner lib生成。我的代碼可以解析大多數生成的xml文件,除了那些包含問題中提到的字符的文件。我試圖找出如何處理這些角色,他們到底是什麼? – dmornad
那麼,你似乎在數據中有無效的字節;我會說這不是有效的UTF-8。如果pdfMiner正在產生這個,你需要問爲什麼pdfMiner產生無效的XML。 –