2016-12-03 27 views
0

這裏https://en.wikipedia.org/wiki/Tag_soup#HTML5這是寫:符合html5標準的解析器是否正確處理html 4及更舊版本?

HTML5的目標是到標籤湯 問題的最完整的解決方案迄今,而其餘的backwards-和 可能向前兼容。與XHTML相反,XHTML與兼容性相反,並且採用解析器應該對容易形成嚴重標記的容忍度較低的方法,HTML5承認形成不好的 HTML代碼已經大量存在,並且可能會繼續使用 ,並且可能會繼續使用 認爲應擴展規範 以確保與此類代碼的最大兼容性。

因此,HTML 5規範已經改變了它的HTML語法 定義既要適應今天在使用中常見的語法,並 明確說明究竟「代碼格式錯誤」應該如何解析器來處理 。處理格式錯誤的代碼現在在規範本身中佔有一席之地,希望能夠減少對將來的HTML 解析器實施額外的,超出規範的處理 處理它無法識別的代碼的需求。

我的理解是否正確,那麼html5解析器應該正確解析舊的html頁面(如html 2.0或html 4)?我需要一個能解析大部分互聯網頁面的html解析器。所以我發現Google Gumbo:https://github.com/google/gumbo-parser。它寫在那裏,它是HTML5分析器。它會適合我,然後解析不html5網頁?

回答

1

是的,這是HTML5和XHTML之間的主要區別之一。您應該能夠使用HTML5解析器解析任何HTML頁面。

+0

謝謝你的回答! – JenyaKh

相關問題