2011-09-03 46 views

回答

1

引入nokogiri爲您提供了文本節點,即編造能力,節點之間的內容:

require 'nokogiri' 

doc = Nokogiri::HTML(
'<p>this 
    <b>text to remove</b> 
    text 
</p>') 
doc.at('b').remove 
doc.at('p').text = doc.at('p').text.gsub(/\n\s*\n/, "\n") 

puts doc.text 

嵌入在HTML回車,在文件中生成不同的行,實際上在干預文本節點。因此,剝離標籤後,文本節點中將以空白分隔的「\n」字符結束。快速gsub可以清理掉這些。