2012-11-06 38 views
5

我想(在讀),從刮一些數據:需要鼠標點擊的網頁抓取?

http://www.soccerbase.com/matches/results.sd?date=2012-11-04

即,我想,當你按下按鈕來獲得其顯示在頁面上比賽的細節。但是,單擊按鈕時出現的信息不包含在原始html代碼中。所有我能看到的是一條線(其中我所期望的數據要包含)...

<span class="infoField"><a href="#" class="info finished" title="Show full match details"></a></span> 

...這幾乎讓我在一個死衚衕...任何想法?

+1

你應該開始在Firefox或chrome開發工具中使用firebug。網站向javascript請求http://www.soccerbase.com/matches/additional_information.sd?id_game=652536 –

+2

您還應該閱讀條款和條件。 – Spacedman

+0

@Spacedman在美國,至少,這些條款和條件不具有法律約束力。見例如http://www.forbes.com/sites/ericgoldman/2012/10/10/how-zappos-user-agreement-failed-in-court-and-left-zappos-legally-naked/ – hadley

回答

4
require(XML) 
require(RCurl) 
dataurl<-'http://www.soccerbase.com/matches/results.sd?date=2012-11-04' 
sdata<-htmlParse(dataurl) 
sid<-xpathSApply(sdata,'//*/tr/@id') 
sid<-gsub('^tgc','',sid) 
mUrl<-paste0('http://www.soccerbase.com/matches/additional_information.sd?id_game=',sid) 

上面的代碼將獲得所需的URL的額外數據。不過,我會檢查網站收集他們的數據。

相關問題