2015-12-19 40 views
0

我正在嘗試構建網絡爬蟲併爲網站提取信息 「http://www.rcsb.org/pdb/home/home.do」。我的xpath應用程序返回NULL值

library(RCurl) 
library(XML) 

url  <- "http://www.rcsb.org/pdb/home/home.do" 
page <- getURL(url) 
parsed <- htmlTreeParse(page, useInternalNodes = TRUE) 

extract <- xpathApply(
    parsed, 
    "//*/href[@id='navbar-collapse-RCSB']/ul/li" 
) 

這是我用來進入「搜索」選項卡在上述網站 執行此代碼我得到一個空或空列表後的代碼。 如何從這些網站提取我的數據。

+0

你爲什麼拼搶時提供[REST API(http://www.rcsb.org/ pdb/software/rest.do)到他們的數據? – hrbrmstr

+0

我對此完全陌生,對我來說這可能有點雄心勃勃,但我們可以用API做些什麼? –

+0

在該頁面上有一個相當不錯的解釋。你究竟在幹什麼(即你計劃在搜索框中「輸入」,然後在搜索結果返回時再刮)? – hrbrmstr

回答

3

的問題沒有指定什麼輸出想要的,但也許這將讓你開始:

library(XML) 
url <- "http://www.rcsb.org/pdb/home/home.do" 
doc <- htmlTreeParse(url, useInternalNodes = TRUE) 
xp <- xpathApply(doc, "//*/div[@id='navbar-collapse-RCSB']/ul/li")