2014-09-04 36 views
1

我想開發一個R腳本,需要一個字符串並在維基百科搜索框上提交它。到達該字符串的頁面後,R程序應從頁面中提取所有表格。例如,如果字符串是曼聯,那麼R腳本應該在維基百科上提交一個查詢,將其帶到曼徹斯特統一頁面並提取所有表格並將它們轉換爲數據框架。Sumbit通過R的維基百科查詢

P.S:我剛開始嘗試在R網站抓取,所以任何幫助將不勝感激。

+0

那麼...你做了什麼,你試圖解決什麼問題?請參閱http://stackoverflow.com/questions/5963269/how-to-make-a-great-r-reproducible-example以獲得好的R問題應該是什麼感覺。目前這個問題太廣泛了,不適合這個網站。 – nico 2014-09-04 10:30:20

+1

那麼,您是否正在嘗試開發它,或者您只是希望SO用戶爲您開發它?因爲我在這裏沒有看到任何表明你爲此付出的努力。 – 2014-09-04 11:49:06

回答

1

這個問題將會關閉,因爲它目前有點寬泛,但是你可以做的最基本的方式是使用XML包中的readHTMLTable函數。這是一個有用的實用函數,它將處理基本的html表格。

appURL <- "http://en.wikipedia.org/wiki/Manchester United" 
library(XML) 
out <- readHTMLTable(appURL) 
> head(out[[1]], 2) 
V1        V2 V3 
1 Full name Manchester United Football Club <NA> 
2 Nickname(s)    The Red Devils[1] <NA> 

有可能使用任何API可能存在的維基百科的R包。例如,快速搜索產生了http://cran.r-project.org/web/packages/WikipediR/index.html