2010-08-19 18 views
4

我想使用Nokogiri解析HTML文件。我能夠做到這一點,但我只想要文本和CDATA或JavaScript,因爲我的腳本和div標籤都在文件中。如何過濾CDATA並僅從HTML獲取文本?

+3

你能顯示您擁有的數據和您想使用Nokogiri獲得的數據的示例? – 2010-08-19 08:07:37

回答

0

您可以刪除所有腳本元素,

doc.search('script').remove 

...然後選擇所有文本元素

doc.xpath('//text()') 

...或者只是選擇div元素中的文本元素

doc.xpath('//div//text()') 
相關問題