我是一個新的學習者R,我有興趣使用rvest提取html表格並提交html表單。使用rvest提取html表格
現在,我想從中文網站獲取一些有用的信息。網址是:
http://caipiao.163.com/award/cqssc/20160513.html
我使用Windows 10 Professional,帶RStudio版本0.99.896,我使用谷歌瀏覽器使用XPath助手插件的Web瀏覽器。
我想從中文網站中提取主html表格,它包含120組關於彩票中獎號碼的信息。第一個(001)是:98446,最後一個(120)是:01798;我只想提取數字(001)至(120)和中獎號碼:98446至01798.
我使用XPATH幫助器和Chrome Web開發來獲取XPATH。
我覺得我想要的信息的XPATH是:
//html/body/article[@class='docBody clearfix']/section[@id='mainArea']/div[@class='lottery-results']/table[@class='awardList']/*[@id="mainArea"]/div[1]/table/tbody/tr[2]/td[1]
但是當我運行在RStudio下面的代碼,我無法得到我想要的結果。 以下是我的代碼:
> library(rvest)
Loading required package: xml2
> url <- "http://caipiao.163.com/award/cqssc/20160513.html"
> xp <- "//html/body/article[@class='docBody clearfix']/section [@id='mainArea']/div[@class='lottery-results']/table[@class='awardList']/*[@id='mainArea']/div[1]/table/tbody/tr[2]/td[1]"
>
> x <- read_html(url)
> y <- x %>% html_nodes(xpath=xp)
> y
{xml_nodeset (0)}
>
請看看我的代碼,讓我知道,如果我犯任何錯誤。你可以簡單地忽略那些不知名的漢字,它們並不重要,我只是想得到這些數字。
謝謝! 約翰
您是否運行過該代碼?我不確定OP是否意識到JS中有一些後續處理可以使連續的# – hrbrmstr
你好,非常感謝你,你的解決方案似乎比較好。但是,我的R級別還不夠好,我可以看到結果,例如:1 001 9 8 4 4 6 ...但是我如何提取'001'和'9 8 4 4 6'並擺脫其他無用信息? –