如何過濾CDATA並僅從HTML獲取文本？

我想使用Nokogiri解析HTML文件。我能夠做到這一點，但我只想要文本和CDATA或JavaScript，因爲我的腳本和div標籤都在文件中。如何過濾CDATA並僅從HTML獲取文本？

2010-08-19 Ramil

你能顯示您擁有的數據和您想使用Nokogiri獲得的數據的示例？ – 2010-08-19 08:07:37

您可以刪除所有腳本元素，

doc.search('script').remove

...然後選擇所有文本元素

doc.xpath('//text()')

...或者只是選擇div元素中的文本元素

doc.xpath('//div//text()')

2011-07-07 01:11:30 akuhn

回答