如何讓Hpricot和HTML5一起玩呢？

我正在使用Hpricot來解析主題文件。但是，我注意到，如果我向Hpricot（）中提供有效的HTML5文檔，它會自動關閉HTML5標記（如<section>），並使用DOCTYPE混亂。如何讓Hpricot和HTML5一起玩呢？

是否有任何擴展到Hpricot，或者我需要設置一個標誌，這將允許HTML5文檔被正確解析？

它也有自閉合img標籤的問題。看到我的文章http://stackoverflow.com/questions/4220795 – AntonAL 2010-11-19 00:40:59

你可以添加一個文件，你試圖解析一個小例子，展示問題？ – philosodad 2011-01-07 13:56:20

有沒有理由需要使用Hpricot，而不是Nokogiri？後者是積極開發/維護的，並且已經成爲這類事情的一個非常標準的ruby工具包的一部分。 – 2011-01-28 02:05:00

我知道這是一種圍繞直接問題的作品，但我會建議你嘗試Nokogiri http://nokogiri.org/正如在你的問題的一些評論中提到的。我對解析任何HTML/XML如結構化文本（包括HTML5）沒有任何問題。

2011-01-30 07:21:25 ctcherry

我認爲Hpricot的to_original_html方法正是你正在尋找的。

從文檔，to_original_html

嘗試保留文檔的原始HTML，只有outputing新的標籤已更改的元素。

2011-02-24 21:58:26 nil

回答