如何在已解析的XML文本中移除「BODY」標記？

我是一個新手程序員。我使用python 3和BeautifulSoup4解析了一些xml文件時遇到了問題。也就是說，解析文本顯示爲如何在已解析的XML文本中移除「BODY」標記？

"BODY { MARGIN: 0px; FONT-FAMILY: Malgun Gothic; COLOR: #000000; FONT-SIZE: 10pt}P { LINE-HEIGHT: 1.2; MARGIN-TOP: 0px; MARGIN-BOTTOM: 0px}LI { LINE-HEIGHT: 1.2; MARGIN-TOP: 0px; MARGIN-BOTTOM: 0px} blar - blar - blar "

'blar-blar-blar'是我想要解析的文本。

如何刪除該文本中無用的單詞？

來源

2017-05-07 DaeyoungKim

我會用這個正則表達式。如果您縮小了想要縮小的字符串格式，可以創建更好的正則表達式。

import re 
text = "BODY { MARGIN: 0px; FONT-FAMILY: Malgun Gothic; COLOR: #000000; FONT-SIZE: 10pt}P { LINE-HEIGHT: 1.2; MARGIN-TOP: 0px; MARGIN-BOTTOM: 0px}LI { LINE-HEIGHT: 1.2; MARGIN-TOP: 0px; MARGIN-BOTTOM: 0px} blar - blar - blar" 
print (re.findall("(?:(?:(.*?)}){3})(.*)",text)[0][1])

這裏有一個regex101給你看：

https://regex101.com/r/m0Q3hL/1

來源

2017-05-07 03:01:19 Neil

謝謝！它很好地工作：D – DaeyoungKim

如何在已解析的XML文本中移除「BODY」標記？

回答

相關問題