2017-02-06 32 views
0

取下字符串只錨標籤我知道,從字符串中刪除所有的HTML標籤可以使用:用正則表達式

string = re.sub('<[^<]*?/?>', '', string) 

但反正是有,我只能刪除錨標記,並保持所有其他標記。因此,例如:

<p>Some text<a href="#">link</a></p> 

成爲:

<p>Some text link</p> 
+5

[不使用正則表達式來解析HTML(http://stackoverflow.com/a/1732454/560648)來解決這個問題。 –

+2

沒有可靠的方法來使用正則表達式來做到這一點。相反,請使用xml解析器,例如beautifulsoup。 –

+0

你可以使用它「(\ b <.+> \ w + <\/.*?>)(?= \ <\ /)」(刪除引號)=>只針對單行。 –

回答

1

這足以尋找開單獨關閉a標籤和忽略它們:

<(?:a\b[^>]*>|/a>) 

Live demo

0

感謝REVO它完美地工作。 我也使用管理的regex

string = re.sub('<a.*?>|</a> ', '', string) 
相關問題