我有一個包含一個HTML文檔數據:解析HTML(不遵循HTML語義)使用引入nokogiri
<div>
<p class="someclass">
<ul>
<li>Item 1</li>
<li>Item 2</li>
</ul>
</p>
</div>
在解析使用:
div_node.children.each do |child|
if child.node_name == 'p'
#store it as html string in db
store(child.to_html)
end
end
當我檢查數據庫,我只得到外<p>
標籤:
<p class="someclass">
</p>
沒有內<ul>
標籤內容被存儲或保留rieved。
我知道<p>
標籤不能包含<ul>
標籤,但我們從客戶得到的文檔中有數據,有大約1000個文檔與數據,所以我不能編輯手動
@Pete再次將p標籤轉換爲div我將不得不使用nokogiri那裏將不會有任何內容g節點,轉換後的div標籤也是如此。 想法? – ashishmohite