我有這個小班:我想在python解析HTML
class HTMLTagStripper(HTMLParser):
def __init__(self):
self.reset()
self.fed = []
def handle_data(self, data):
self.fed.append(data)
def handle_starttag(self, tag, attrs):
if tag == 'a':
return attrs[0][1]
def get_data(self):
return ''.join(self.fed)
解析HTML代碼:
<div id="footer">
<p>long text.</p>
<p>click <a href="somelink.com">here</a>
</div>
這是結果我得到:long text click here
但我想得到:long text click somelink.com
有沒有辦法做到這一點?
如果有意願......我知道我會在這裏爲這個建議拍攝,但如果你想要做的是刪除標籤,你可以使用正則表達式:-) – Simon
[請不要使用RegEx解析HTML](http://stackoverflow.com/a/1732454/189134)使用[BeautifulSoup](http://www.crummy.com/software/BeautifulSoup/)或爲其設計的其他庫代替。 – Andy