2015-11-04 174 views
0

我試圖從本網站刮整個圖表刮痧整個圖表:麻煩從HTML

http://stats.ncaa.org/team/stats/12021?org_id=749&sport_year_ctl_id=12021

但是當我運行這段代碼:

library(XML) 
library(gsubfn) 

URL = 'http://stats.ncaa.org/team/stats?org_id=381&sport_year_ctl_id=12021' 


Player_Stats = readHTMLTable(URL, header = T, stringsAsFactors = F) 

Player_Stats 

Player_Stats只返回數據對於球員來說,直到並不包括總線。

我想要的是團隊總數和對手總數。

感謝

回答

0

這些信息是在該表中,這就是爲什麼readHTMLTable()是不是就可以拿起底部的<tfoot>元素。您可以使用getNodeSet()分別提取<tfoot>位,如下所示。我最後將表格的兩位綁定在一起,但您可能希望爲應用程序保留不同類型的信息。

library(XML) 
library(gsubfn) 
URL = 'http://stats.ncaa.org/team/stats?org_id=381&sport_year_ctl_id=12021' 
Player_Stats = readHTMLTable(URL, header = T, stringsAsFactors = F) 
stats <- Player_Stats$stat_grid 

doc <- htmlTreeParse(URL, useInternalNodes=T) 
foot <- getNodeSet(doc,"//tfoot") 
totals <- readHTMLTable(unlist(foot)[[1]]) 
colnames(totals) <- colnames(stats) 
fulltable <- rbind(stats,totals)