2017-10-10 56 views
0

我想從下面的網站刮所有的NPI和細節。 「https://www.pverify.com/npi-lookup-find-npi-number-of-doctors-physicians/網頁報廢的(iframe)搜索結果在

代碼:

library("rvest") 
library("xml2") 
url="https://www.pverify.com/npi-lookup-find-npi-number-of-doctors-physicians/" 
webpage<-read_html(url) 
data_html <- html_nodes(webpage,'iframe') 
data_html <-html_table(data_html) 

當我嘗試上面的代碼,錯誤消息是 「錯誤:html_name(X)== 」表「 是不是真正的」 請幫我的得到NPI號碼和他們的細節。

回答

1

您可以嘗試Rselenium。

代碼看起來或多或少像這樣。

library(Rselenium) 
library(XML)  

remDr <- remoteDriver(port = 4445L) 
remDr$open() 
remDr$navigate("https://www.pverify.com/npi-lookup-find-npi-number-of-doctors-physicians/") 
h <- htmlParse(remDr$getPageSource()[[1]], encoding = "UTF-8") 
h_table <- html_table(h) 

要創建一個泊塢窗服務器,你可以看到here

+0

remDr < - RSelenium :: remoteDriver(端口= 4445L) remDr $ open()的 remDr $引導(「HTTPS://www.pverify的.com/NPI-查找找到的-NPI-數的-醫生-醫師/「) ħ< - htmlParse(remDr $ getPageSource()[[1]],編碼= 」UTF-8「) h_table < - html_table(H)中的代碼的第一行輕微變化,我也得到在第二行的是「錯誤在checkError(RES)的錯誤: 不可能連接到主機在http://本地主機:4445/WD /集線器 請Ë確保Selenium服務器正在運行。「 –

+0

你使用的是Linux嗎?如果是,打開終端和數字:服務碼頭狀態。看看你的服務器是否在運行。如果不是你需要看到[這](https://cran.r-project.org/web/packages/RSelenium/vignettes/RSelenium-docker.html) –

+0

我使用的是Windows 10 –