2
我已經設法爲單個網址刮取內容,但我正在努力將其自動化爲多個Url。使用r自動化網頁掃描
這是怎樣的一個頁面完成:
library(XML); library(data.table)
theurl <- paste("http://google.com/",url,"/ul",sep="")
convertUTF <- htmlParse(theurl, encoding = "UTF-8")
tables <- readHTMLTable(convertUTF)
n.rows <- unlist(lapply(tables, function(t) dim(t)[1]))
table <- tables[[which.max(n.rows)]]
TableData <- data.table(table)
現在我有URL的載體,希望刮每個相應表:
在這裏,我的數據,包括多讀HTTP鏈接:
ur.l <- data.frame(read.csv(file.choose(), header=TRUE, fill=TRUE))
theurl <- matrix(NA, nrow=nrow(ur.l), ncol=1)
for(i in 1:nrow(ur.l)){
url <- as.character(ur.l[i, 2])
}
而不是在這裏使用'file.choose',你應該包括一個簡短的例子你的網址向量。 – jbaums