2010-05-18 51 views
3

我正在使用Hpricot來解析主題文件。但是,我注意到,如果我向Hpricot()中提供有效的HTML5文檔,它會自動關閉HTML5標記(如<section>),並使用DOCTYPE混亂。如何讓Hpricot和HTML5一起玩呢?

是否有任何擴展到Hpricot,或者我需要設置一個標誌,這將允許HTML5文檔被正確解析?

+0

它也有自閉合img標籤的問題。看到我的文章http://stackoverflow.com/questions/4220795 – AntonAL 2010-11-19 00:40:59

+1

你可以添加一個文件,你試圖解析一個小例子,展示問題? – philosodad 2011-01-07 13:56:20

+1

有沒有理由需要使用Hpricot,而不是Nokogiri?後者是積極開發/維護的,並且已經成爲這類事情的一個非常標準的ruby工具包的一部分。 – 2011-01-28 02:05:00

回答

2

我知道這是一種圍繞直接問題的作品,但我會建議你嘗試Nokogiri http://nokogiri.org/正如在你的問題的一些評論中提到的。我對解析任何HTML/XML如結構化文本(包括HTML5)沒有任何問題。

0

我認爲Hpricot的to_original_html方法正是你正在尋找的。

從文檔,to_original_html

嘗試保留文檔的原始HTML,只有outputing新的標籤已更改的元素。

相關問題