我使用Universal feed Parser解析RSS內容。在描述標籤有時 我越來越velues象下面這樣:Python中的正則表達式用於刪除XML註釋和HTML元素
<!--This is the XML comment -->
<p>This is a Test Paragraph</p></br>
<b>Sample Bold</b>
<m:Table>Sampe Text</m:Table>
中序刪除HTML元素/標籤我使用以下正則表達式。
pattern = re.compile(u'<\/?\w+\s*[^>]*?\/?>', re.DOTALL | re.MULTILINE | re.IGNORECASE | re.UNICODE)
desc = pattern.sub(u" ", desc)
這有助於刪除HTML標籤,但不是XML註釋。如何刪除元素和XML元素?
這不夠嗎? 'r'<.*?>'' – rplnt
正確的做法是使用XML解析器像@duffymo所說的。嘗試[BeautifulSoup](http://www.crummy.com/software/BeautifulSoup/) – WilHall
解析器在這種情況下是一個矯枉過正的事情。您不需要知道樹結構,標籤名稱空間,名稱和屬性只是爲了將它們扔掉,是嗎?哦,和@rplnt,你忘了CDATA('<![CDATA [有些文本<這不是標籤!>一些更多文本]]>')。 – pyos