2015-11-26 36 views
0

我想刮一個網站,但是JavaScript導致我的問題。我使用RSelenium進入我想要的頁面,並給出html我可以解析它並獲取我想要的數據。然而,這是我似乎無法解決的一步。下面是我有:RSelenium webscrape

library('RSelenium') 
checkForServer() 
startServer() 
remDr <- remoteDriver(browserName="firefox", port=4444) 
remDr$open(silent=T) 
library('XML') 
url <- "http://racing.hkjc.com/racing/Info/Meeting/Results/english/Local/20141012/ST/1" 
remDr$navigate(url) 
elem <- remDr$findElement(using="div id", value="results") # PROBLEM HERE, CAN'T FIND A TAG THAT WORKS! 
elemtxt <- elem$getElementAttribute("outerHTML")[[1]] # possible continuation 
elemxml <- htmlTreeParse(elemtxt, useInternalNodes=T) 

(我最頁面上的數據後:結果表中,信息只是它上面,股息表和比賽事故報告,但我知道怎麼去說一旦我有elemxml)

非常感謝

回答

0

喜歡的東西:

doc <- htmlParse(remDr$getPageSource()[[1]]) 
readHTMLTable(doc) 

應允許您訪問HTML和處理表包含。