2010-07-13 49 views

回答

3

我必須自動爲我的一個項目做到這一點。我找到的解決方案是使用Beautiful Soup模塊來提取腳本標記(我也是這樣做的風格和形式)。

soup = BeautifulSoup(html_string, convertEntities=BeautifulSoup.HTML_ENTITIES) 

scripts = soup.findAll('script') # find and return a list of 'script' entities 
for s in scripts: 
    s.extract() # remove it from the DOM completely 

然後,你可以有BeautifulSoup打印出來或保存html。

0

另一種選擇,專爲消毒,是html5lib

無論你做什麼,做而不是依靠一個編輯器組件來爲你做:它運行在客戶端,所以很容易被操縱提交無效或惡意的HTML!