2017-10-11 55 views
0

我的妻子想要捕獲我們在線的醫療博客的所有條目。我認爲這將是一個很好的機會嘗試網絡掃描,因爲複製粘貼將永遠。我的代碼如下:Rvest和無法連接

library(rvest) 
url <- "http://www.carepages.com/" 
pgsession <-html_session(url) 
pgform <- html_form(pgsession)[[1]] 
filled_form <- set_values(pgform, 
        'session[email]' = "[email protected]" 
        'session[password]' = "mypassword") 
submit_form(pgsession,filled_form) 

然而,當我運行它,我得到一個

錯誤捲曲:: curl_fetch_memory(URL,手柄=手柄): 無法連接到www.carepages.com端口80:超時

甚至無法進入頁面嘗試刮取每個博客。

回答

0

所呈現的是應該發生的代碼的第一個錯誤是

Error: unexpected string constant in: 
    "    'session[email]' = "[email protected]" 
        'session[password]'" 

...這之後"[email protected]"

用途涉及缺少逗號第二種形式htat頁面上,而不是:

pgform <- html_form(pgsession)[[2]] 
filled_form <- set_values(pgform, 
        'session[email]' = "[email protected]" 
        'session[password]' = "mypassword") 
+0

當我粘貼時,逗號是一個疏忽,因此現在沒問題。改變了第二部分,現在我得到as.vector的 錯誤(Y):對象pgform'未找到 然後 在lapply錯誤(X,F):對象「filled_form」未找到 – JLUser

+0

不多因爲我很確定這些都不是有效的電子郵件和密碼值,所以我可以做更多的測試代碼。看起來很清楚,'pgform'對象應該存在。當我用str()查看它時,我發現'email'和'password'都不是字段名稱。 –

+0

AND ...我認爲你應該使用第二個表單對象而不是第一個。有人會看到一個名爲''session'的郵件[email]「' –