2012-12-11 46 views
1

我期待納入R A環路穿過NFL統計網站在這裏每場比賽的技術統計數據的網站鏈接循環:http://www.pro-football-reference.com/years/2012/games.htm通過有R

目前我有手動點擊「技術統計「每週每場比賽的鏈接;有什麼辦法可以在R中自動化這個嗎?我的代碼適用於每個鏈接中的完整播放數據集;這一點在這個時候我需要很長時間!

+2

建立一個蜘蛛來挖掘數據是特別禁止在該網站的[條款和條件](http://www.sports-reference.com/data_use.shtml)。 – Andrie

+0

謝謝 - 我沒有意識到!爲了論證的緣故,R是否有這樣的能力?我從其他開放的站點獲得其他數據需求。 – JimGrange

+1

是的,RCurl包裝有很多網頁抓取工具。結合XML包,他們是一個出色的二人組合。 –

回答

2

網頁抓取可能違背了某些網站的使用條款。這些條款的可執行性尚不清楚。雖然在許多情況下原始表達的重複將是非法的,但在美國,法院裁定Feist出版物訴農村電話服務中允許重複事實。

require(RCurl) 
require(XML) 
bdata<-getURL('http://www.pro-football-reference.com/years/2012/games.htm') 
bdata<-htmlParse(bdata) 
boxdata<-xpathSApply(bdata,'//a[contains(@href,"boxscore")]',xmlAttrs)[-1] 

以上將得到各種遊戲的boxscore幹。