我試圖使用rvest
從this site.下載文件列表文件名是固定的,但下載網址與模式(僅數十位數)不匹配,所以我無法根據任何標準構建下載網址列表。我如何使用鏈接名稱下載實際文件?使用R通過鏈接名稱獲取下載URL
到目前爲止,我可以得到感興趣的文件列表(基於CSS選擇器),並且我可以獲得網站上所有鏈接的列表,但我不知道如何匹配它們。我需要能夠檢查網站的變化並下載任何名稱更改的文件,因此使用文件名訪問文件非常重要。我對HTML/CSS不是很熟悉,所以這可能是我無法弄清楚這個可能簡單的任務的原因。
library(rvest)
# url with list of download files
url <- "http://www-air.larc.nasa.gov/cgi-bin/ArcView/actamerica.2016?C130=1"
doc <- read_html(url)
# getting everything within the CSS selector "td a"
all <- html_text(html_nodes(doc, "td a"))
# getting list of certain file names
filetype <- "PICARRO"
files <- all[grep(filetype, all)]
# this returns a list of all links on the page,
# but I'm not sure how to match the links up with their names
html_attr(html_nodes(doc, "a"), "href")
非常感謝您的幫助。