我刮出一個容器,其中包括例如網址:刪除所有<a>標籤
<a href="url">text</a>
我需要所有被刪除,只有文字保持 ...
import urllib2, sys
from bs4 import BeautifulSoup
site = "http://mysite.com"
page = urllib2.urlopen(site)
soup = BeautifulSoup(page)
是否有可能?
我刮出一個容器,其中包括例如網址:刪除所有<a>標籤
<a href="url">text</a>
我需要所有被刪除,只有文字保持 ...
import urllib2, sys
from bs4 import BeautifulSoup
site = "http://mysite.com"
page = urllib2.urlopen(site)
soup = BeautifulSoup(page)
是否有可能?
soup = BeautifulSoup(page)
anchors = soup.findAll('a')
for anchor in anchors:
anchor.replaceWithChildren()
其工作完美...謝謝.. – a1204773
您可以用漂白劑
做到這一點>>> import bleach
>>> bleach.clean('an <script>evil()</script> example')
u'an <script>evil()</script> example'
>>> bleach.linkify('an http://example.com url')
u'an <a href="http://example.com" rel="nofollow">http://example.com</a> url
>>> bleach.delinkify('a <a href="http://ex.mp">link</a>')
u'a link'
你能給輸入的一個例子,所需的輸出嗎? – kgr