2017-05-07 63 views
0

我是一個新手程序員。我使用python 3和BeautifulSoup4解析了一些xml文件時遇到了問題。也就是說,解析文本顯示爲如何在已解析的XML文本中移除「BODY」標記?

"BODY { MARGIN: 0px; FONT-FAMILY: Malgun Gothic; COLOR: #000000; FONT-SIZE: 10pt}P { LINE-HEIGHT: 1.2; MARGIN-TOP: 0px; MARGIN-BOTTOM: 0px}LI { LINE-HEIGHT: 1.2; MARGIN-TOP: 0px; MARGIN-BOTTOM: 0px} blar - blar - blar " 

'blar-blar-blar'是我想要解析的文本。

如何刪除該文本中無用的單詞?

回答

0

我會用這個正則表達式。如果您縮小了想要縮小的字符串格式,可以創建更好的正則表達式。

import re 
text = "BODY { MARGIN: 0px; FONT-FAMILY: Malgun Gothic; COLOR: #000000; FONT-SIZE: 10pt}P { LINE-HEIGHT: 1.2; MARGIN-TOP: 0px; MARGIN-BOTTOM: 0px}LI { LINE-HEIGHT: 1.2; MARGIN-TOP: 0px; MARGIN-BOTTOM: 0px} blar - blar - blar" 
print (re.findall("(?:(?:(.*?)}){3})(.*)",text)[0][1]) 

這裏有一個regex101給你看:

https://regex101.com/r/m0Q3hL/1

+0

謝謝!它很好地工作:D – DaeyoungKim