1
我想要廢除超鏈接中的地理編碼,並且想要將所有表格與地理編碼一起製成表格。rvest獲取表格中的超鏈接
我做了什麼,現在是通過使用下面的代碼
library(rvest)
url<-"http://www.city-data.com/accidents/acc-Nashua-New-Hampshire.html"
citidata<- html(url)
ta<- citidata %>%
html_nodes("table") %>%
.[1:29] %>%
html_table()
dat<-do.call(rbind, lapply(ta, data.frame, stringsAsFactors=FALSE))
citystate <- citidata %>%
html_node("h1 span") %>%
html_text()
citystate <- gsub("Fatal car crashes and road traffic accidents in ",
"", citystate)
loc<-data.frame(matrix(unlist(strsplit(citystate, ",", fixed = TRUE)), ncol=2, byrow=TRUE))
dat$City<-loc$X1
dat$State<-loc$X2
得到一個表,我得到這個
Date,Location,Vehicles,Drunken.persons,Fatalites,Persons,Pedestrians,City,State
1 Jun 26, 2013 87:99 PM, Temple Street, 1, -, 1, 1, -, Nashua, New Hampshire
然後我嘗試在地理編碼加入到數據幀,但不知道如何去做。
下面是在超鏈接中廢除地理編碼的代碼。
pg <- html("http://www.city-data.com/accidents/acc-Nashua-New-Hampshire.html")
geo <- data.frame(gsub("javascript:showGoogleSView","",pg %>% html_nodes("a") %>% html_attr("href") %>% .[31:60]))
一個問題(最初)是'dat'有98行,地緣' '有30 – hrbrmstr
是的,並不是所有的數據都帶有地理位置。 – Jen