我有一些示例HTML,我已經用一些特殊標記標記了一些不同的程序,下面是一個html示例。你應該注意到<START:organization>..<END>
元素。在Nokogiri中保留自定義元素上的名稱空間HTML
<html>
<head/>
<body>
<ul>
<li> <START:organization> Advanced Integrated Pest Management <END> </li>
<li> <START:organization> American Bakers Association <END> </li>
</ul>
</body>
</html>
我想用引入nokogiri來預處理HTML輕鬆去除像<script>
無關的標籤。我創建了下面的延伸到引入nokogiri文檔類:
module Nokogiri
module HTML
class Document
def prepare_html
xpath("//script").remove
to_html.remove_new_lines
end
end
end
end
的問題是,引入nokogiri正在改變<START:organization>
元件<organization>
。
無論如何,我可以保留HTML來維護我的自定義標記標籤?