2012-10-24 132 views
2

我刮出一個容器,其中包括例如網址:刪除所有<a>標籤

<a href="url">text</a> 

我需要所有被刪除,只有文字保持 ...

import urllib2, sys 
from bs4 import BeautifulSoup 

site = "http://mysite.com" 
page = urllib2.urlopen(site) 
soup = BeautifulSoup(page) 

是否有可能?

+0

你能給輸入的一個例子,所需的輸出嗎? – kgr

回答

2
soup = BeautifulSoup(page) 
anchors = soup.findAll('a') 
for anchor in anchors: 
    anchor.replaceWithChildren() 
+0

其工作完美...謝謝.. – a1204773

6

您可以用漂白劑

做到這一點

PyPi - Bleach

>>> import bleach 

>>> bleach.clean('an <script>evil()</script> example') 
u'an &lt;script&gt;evil()&lt;/script&gt; example' 

>>> bleach.linkify('an http://example.com url') 
u'an <a href="http://example.com" rel="nofollow">http://example.com</a> url 

>>> bleach.delinkify('a <a href="http://ex.mp">link</a>') 
u'a link' 
+0

我可以這樣寫嗎? bleach.delinkify(湯)??? – a1204773

+1

+1引入一個有趣的圖書館 – kgr

+0

不工作...它可能適用於一個鏈接,但它不能自動找到湯中的所有鏈接並刪除它們...但它的確很好的庫 – a1204773