麻煩從HTML

我試圖從本網站刮整個圖表刮痧整個圖表：麻煩從HTML

http://stats.ncaa.org/team/stats/12021?org_id=749&sport_year_ctl_id=12021

但是當我運行這段代碼：

library(XML) 
library(gsubfn) 

URL = 'http://stats.ncaa.org/team/stats?org_id=381&sport_year_ctl_id=12021' 


Player_Stats = readHTMLTable(URL, header = T, stringsAsFactors = F) 

Player_Stats

Player_Stats只返回數據對於球員來說，直到並不包括總線。

我想要的是團隊總數和對手總數。

感謝

來源

2015-11-04 Adam Yudelman

這些信息是在該表中，這就是爲什麼readHTMLTable()是不是就可以拿起底部的<tfoot>元素。您可以使用getNodeSet()分別提取<tfoot>位，如下所示。我最後將表格的兩位綁定在一起，但您可能希望爲應用程序保留不同類型的信息。

library(XML) 
library(gsubfn) 
URL = 'http://stats.ncaa.org/team/stats?org_id=381&sport_year_ctl_id=12021' 
Player_Stats = readHTMLTable(URL, header = T, stringsAsFactors = F) 
stats <- Player_Stats$stat_grid 

doc <- htmlTreeParse(URL, useInternalNodes=T) 
foot <- getNodeSet(doc,"//tfoot") 
totals <- readHTMLTable(unlist(foot)[[1]]) 
colnames(totals) <- colnames(stats) 
fulltable <- rbind(stats,totals)

來源

2015-11-04 23:24:56

回答

相關問題