我試圖用Nokogiri和Ruby 1.9.3來抓取財務數據的頁面。如何在Nokogiri中指定XPATH或CSS來刮取頁面的表格數據?
我無法得到正確的XPath或CSS濾鏡來獲取用於保存數據的表,然後通過數據迭代和組裝它,以便輸出可以被放入一個CSV文件是這樣的:
Date, Company,Symbol,ReportedEPS,Consensus EPS
20130828,CDN WESTERN BANK,CWB.TO,0.60,0.59
我用Firebug獲取XPath和CSS數據。什麼是正確的格式爲XPath或CSS提取表然後迭代通過行組裝它們輸出到文件?
require 'rubygems'
require 'mechanize'
require 'nokogiri'
require 'uri'
@agent = Mechanize.new do|a|
a.user_agent_alias = "Windows IE 6"
end
url = "http://biz.yahoo.com/z/20130828.html"
page = @agent.get(url)
doc = Nokogiri::HTML(page.body)
puts doc.inspect
#~ from firebug
#~ xpath /html/body/p[3]/table/tbody
#~ css html body p table tbody
正是我想要的。謝謝。 – user2720047