符號我使用下面的Python中剝離HTML標籤,但它也消除&(號),我需要他們留下來。有任何想法嗎?帶HTML標籤 - 在Python
從HTMLParser的進口HTMLParser的
class MLStripper(HTMLParser):
def __init__(self):
self.reset()
self.fed = []
def handle_data(self, d):
self.fed.append(d)
def get_data(self):
return ''.join(self.fed)
def strip_tags(html):
s = MLStripper()
s.feed(html)
return s.get_data()
(也,代碼塊不配合,請想象一下在最後三個行縮進)
你爲什麼要保留'&'而不是'<'?在連接到HTML之前,您應該** **文本。 – SLaks
我固定的代碼縮進你。 :) – jwarner112