1
我試圖從NIAC網站上刮掉國會成員的成績。下面是一個樣本代表的鏈接:https://www.niacaction.org/legislator-bio/?bid=C001097使用XML和Rvest在R中進行網頁搜刮
我的最終目標是建立一個數據框,其中包含國會成員的姓名,州名,分散注意力,然後是第113屆 - 115屆大會的成績。我正在使用XML並投入這樣做。這裏是我的代碼:
####----- Load Packages -----####
library('rvest')
library('XML')
####----- Scrape -----####
url <- 'https://www.niacaction.org/legislator-bio/?bid=C001097'
nodes <- read_html(url, xpath = '//h3 | //*[contains(concat(" ", @class, "
"), concat(" ", "entry-title", " "))]')
page <- htmlTreeParse(nodes)
當我打印我所謂的「頁面」時,我得到的信息比我想要的要多得多。我不明白爲什麼,因爲我清楚地確定了xpath。任何意見將非常感激。謝謝
這正是我一直在尋找。謝謝你,我很感激 – Jordan