1
我需要從多個維基百科頁面中獲取某部分數據。我如何使用WikipediR軟件包來做到這一點?或者還有其他更好的選擇。準確地說,我只需要所有頁面中的以下標記部分。如何使用R中的WikipediR軟件包從Wikipedia頁面獲取數據?
我怎樣才能得到呢?任何幫助,將不勝感激。
我需要從多個維基百科頁面中獲取某部分數據。我如何使用WikipediR軟件包來做到這一點?或者還有其他更好的選擇。準確地說,我只需要所有頁面中的以下標記部分。如何使用R中的WikipediR軟件包從Wikipedia頁面獲取數據?
我怎樣才能得到呢?任何幫助,將不勝感激。
你可以更具體一點,你想要什麼?以下是從網絡導入數據的簡單方法,特別是從Wikipedia導入數據。現在
library(rvest)
scotusURL <- "https://en.wikipedia.org/wiki/List_of_Justices_of_the_Supreme_Court_of_the_United_States"
## ********************
## Option 1: Grab the tables from the page and use the html_table function to extract the tables you're interested in.
temp <- scotusURL %>%
html %>%
html_nodes("table")
html_table(temp[1]) ## Just the "legend" table
html_table(temp[2]) ## THE MAIN TABLE
,如果你想從具有結構基本相同的多個頁面導入數據,但也許只是一些數字或一些改變,請嘗試此方法。
library(RCurl);library(XML)
pageNum <- seq(1:10)
url <- paste0("http://www.totaljobs.com/JobSearch/Results.aspx?Keywords=Leadership<xt=&Radius=10&RateType=0&JobType1=CompanyType=&PageNum=")
urls <- paste0(url, pageNum)
allPages <- lapply(urls, function(x) getURLContent(x)[[1]])
xmlDocs <- lapply(allPages, function(x) XML::htmlParse(x))
到目前爲止,您有嘗試過什麼嗎? – MichaelChirico
你想要什麼格式?我想表格的HTML代碼不會有幫助... – Tgr
@tgr對於我來說,任何格式的數據都可以。我可以獲取表格的HTML代碼,但必須仔細清理數據。 –