我正在嘗試構建網絡爬蟲併爲網站提取信息 「http://www.rcsb.org/pdb/home/home.do」。我的xpath應用程序返回NULL值
library(RCurl)
library(XML)
url <- "http://www.rcsb.org/pdb/home/home.do"
page <- getURL(url)
parsed <- htmlTreeParse(page, useInternalNodes = TRUE)
extract <- xpathApply(
parsed,
"//*/href[@id='navbar-collapse-RCSB']/ul/li"
)
這是我用來進入「搜索」選項卡在上述網站 執行此代碼我得到一個空或空列表後的代碼。 如何從這些網站提取我的數據。
你爲什麼拼搶時提供[REST API(http://www.rcsb.org/ pdb/software/rest.do)到他們的數據? – hrbrmstr
我對此完全陌生,對我來說這可能有點雄心勃勃,但我們可以用API做些什麼? –
在該頁面上有一個相當不錯的解釋。你究竟在幹什麼(即你計劃在搜索框中「輸入」,然後在搜索結果返回時再刮)? – hrbrmstr