如何自動關閉截斷文件中的xml標籤？

當我公司的系統發生錯誤時，我收到一封電子郵件。這封電子郵件中包含的XML全部擠在一行上。如何自動關閉截斷文件中的xml標籤？

我寫了一個記事本++ Python腳本，用於解析除XML之外的所有內容，並將它打印出來。不幸的是，一些電子郵件包含太多的XML數據並被截斷。一般來說，截斷的數據對我來說並不重要。我希望能夠自動關閉任何打開的標籤，以便我的Python腳本能夠正常工作。它不需要很聰明或正確，它只需要使xml足夠好以形成腳本運行。有沒有辦法做到這一點？

我打開Python腳本，在線應用程序，下載的應用程序等

我認識到，正確的解決方案是讓未截斷XML，但右拉槓桿做事情會比處理它要多得多。

來源

2013-08-22 mrtsherman

重複[關閉所有打開的xml標籤]（http://stackoverflow.com/questions/1644994/close-all-opened-xml-tags?rq=1）？ – Frank

使用Beautiful Soup

>>> import bs4 
>>> s= bs4.BeautifulSoup("<asd><xyz>asd</xyz>") 
>>> s 
<html><head></head><body><asd><xyz>asd</xyz></asd></body></html> 
>> 
>>> s.body.contents[0] 
<asd><xyz>asd</xyz></asd>

注意，它關閉了「ASD」標籤自動地」

要創建一個記事本++腳本來處理這個問題，

download the tarball並解壓縮文件
複製bs4目錄到您的PythonScript/scripts文件夾。
在記事本++下面的代碼添加到您的Python腳本

#import Beautiful Soup 
import bs4 
#get text in document 
text = editor.getText() 
#soupify it to fix XML 
soup = bs4.BeautifulSoup(text) 
#convert soup object to string again 
text = str(soup) 
#clear editor and replace bad xml with fixed xml 
editor.clearAll() 
editor.addText(text) 
#change language to xml 
notepad.menuCommand(MENUCOMMAND.LANG_XML) 
#soup has its own prettify, but I like the XML tools version better 
notepad.runMenuCommand('XML Tools', 'Pretty print (XML only - with line breaks)', 1)

來源

2013-08-22 19:13:45

XML和HTML是不一樣的 - 根據正在處理的數據，不指定XML解析器可能會導致數據被錯誤解釋（以及添加示例中顯示的cruft）。 –

如果您已經安裝BeautifulSoup and lxml，這是簡單的：

>>> from bs4 import BeautifulSoup 
>>> soup = BeautifulSoup(""" 
... <?xml version="1.0" encoding="utf-8"?> 
... <a> 
... <b>foo</b> 
... <c>bar</""", "xml") 
>>> soup 
<?xml version="1.0" encoding="utf-8"?> 
<a> 
<b>foo</b> 
<c>bar</c></a>

注二等"xml"個參數構造函數來避免將XML解釋爲HTML。

來源

2013-08-22 19:16:41

如何自動關閉截斷文件中的xml標籤？

回答

相關問題