4
我想使用Nokogiri解析HTML文件。我能夠做到這一點,但我只想要文本和CDATA或JavaScript,因爲我的腳本和div標籤都在文件中。如何過濾CDATA並僅從HTML獲取文本?
我想使用Nokogiri解析HTML文件。我能夠做到這一點,但我只想要文本和CDATA或JavaScript,因爲我的腳本和div標籤都在文件中。如何過濾CDATA並僅從HTML獲取文本?
您可以刪除所有腳本元素,
doc.search('script').remove
...然後選擇所有文本元素
doc.xpath('//text()')
...或者只是選擇div元素中的文本元素
doc.xpath('//div//text()')
你能顯示您擁有的數據和您想使用Nokogiri獲得的數據的示例? – 2010-08-19 08:07:37