我有一個大的(〜50Mb)文件,其中包含描述位於<item> </item>
標籤之間的文檔和屬性的格式不良的XML文件,我想從中提取文本。從大型格式不正確的XML文件的特定元素中提取文本
Python的標準XML解析實用程序(dom,sax,expat)對錯誤的格式造成了阻塞,而更多的原諒庫(sgmllib,BeautifulSoup)會解析整個文件並花費太長時間。
<item>
<title>some title</title>
<author>john doe</author>
<lang>en</lang>
<document> .... </document>
</item>
有誰知道一種方法來提取文本<document> </document>
只有的lang=en
之間不必解析整個文檔?
其他信息:爲什麼它的「格式不對」
有些文件有一個屬性<dc:link></dc:link>
導致與解析器問題。 Python的xml.minidom抱怨:
ExpatError: unbound prefix: line 13, column 0
「格式不正確的XML」是什麼意思?這是一個無效的XML嗎?如果您的XML文件無效,所有解析器都會窒息,您需要手動解析。 – 2009-11-10 20:20:56
什麼樣的過程排放不完整的XML? – 2009-11-10 20:28:49