有沒有簡單的方法可以用python糾正錯誤關閉的HTML標記?例如,我有:python中的HTML標記更正
<p><b>blabla</p></b>
,並希望將其更改爲:
<p><b>blabla</b></p>
有沒有簡單的方法可以用python糾正錯誤關閉的HTML標記?例如,我有:python中的HTML標記更正
<p><b>blabla</p></b>
,並希望將其更改爲:
<p><b>blabla</b></p>
你可以使用pytidylib。
你有什麼試過的?例如。 Google:「python tidy html」?無論如何,看到這個文章:
如果你想要做沒有外部庫,你仍然可以做一些正則表達式替換(如更換每</p>[^<]*?</b>
(與re.DOTALL
啓用)到</b></p>
,,但是this is not the recommended way to modify/parse HTML。
謝謝!它似乎很有用。 – pomel 2012-03-01 09:04:36
我沒有想要使用第三方庫。但它似乎是唯一的方法。 – pomel 2012-03-01 09:00:42
@pomel在沒有外部庫的情況下查看我的更新答案。 – 2012-03-01 09:21:03
HTML是一個非常複雜的野獸。什麼是「正確的」HTML?有一個巨大的文件定義它。哪些標籤需要關閉,如果是,應在哪裏添加結束標籤?這是猜測,絕對不是你應該爲自己破解的東西。使用外部庫,並保存您的編碼技能,以便更好處理。 (或者如果需要,可以改進從庫中獲得的自動更正)。 – alexis 2012-03-01 11:34:44