6
如何從HTML代碼中刪除某些屬性,如id,樣式,類等?從HTML標記中刪除某些屬性
我想我可以使用lxml.html.clean module,但事實證明我只能使用Clean(style=True).clean_html(code)
刪除樣式屬性。我不希望使用正則表達式來完成此任務(屬性可能會更改)。
我想什麼有:提前
from lxml.html.clean import Cleaner
code = '<tr id="ctl00_Content_AdManagementPreview_DetailView_divNova" class="Extended" style="display: none;">'
cleaner = Cleaner(style=True, id=True, class=True)
cleaned = cleaner.clean_html(code)
print cleaned
'<tr>'
謝謝!
謝謝,這正是我所需要的! – naeg
我在使用lxml-3.2.3的這種技術時遇到了困難。知道他們是否改變了一些東西? – Xavi
爲了在v3.2.3中工作,我必須在'cleaner = clean.Cleaner(...)'之後添加'cleaner.safe_attrs = clean.defs.safe_attrs'。 – Xavi