1
我想獲得此地址提供的所有文件的列表:http://www1.ncdc.noaa.gov/pub/data/cmb/drought/weekly-palmers/2005/ (NOAA的公開數據)。檢索網址中的文件列表
這將是某種特定URL的「list.files」。 我開始看看RCurl,但我能得到的只是URL的HTML代碼。
我想獲得此地址提供的所有文件的列表:http://www1.ncdc.noaa.gov/pub/data/cmb/drought/weekly-palmers/2005/ (NOAA的公開數據)。檢索網址中的文件列表
這將是某種特定URL的「list.files」。 我開始看看RCurl,但我能得到的只是URL的HTML代碼。
在這種情況下,你可以簡單地使用readHTMLTable
:
readHTMLTable("http://www1.ncdc.noaa.gov/pub/data/cmb/drought/weekly-palmers/2005/",
skip.rows=1:2)[[1]]$Name -> file.list
然後創建的路徑列表:
paste("http://www1.ncdc.noaa.gov/pub/data/cmb/drought/weekly-palmers/2005/",
file.list[!is.na(file.list)], sep="") -> path.list
謝謝!這正是我期待的! – user1752610
我得到的是純文本文件,所有的數據。你是如何獲得HTML代碼的? –
我用這個(http://stackoverflow.com/questions/5227444/recursively-ftp-download-then-extract-gz-files)作爲基礎。 – user1752610