我想從以下服務器獲得了大量的數據集(3+ GB):如何從FTP服務器上的文件中提取數據而無需在R中全部下載? - 編碼錯誤?
ftp://podaac-ftp.jpl.nasa.gov/allData/ghrsst/data/L4/GLOB/JPL/MUR
我知道RCurl
是一個很好的包從FTP獲取數據。該文件是一個壓縮的netcdf文件。我需要解壓縮它才能使用ncdf4
將它讀入R中。它被壓縮爲bz2
。
重要的是,該文件比我想在我的硬盤上大,所以本地保存副本不是一個理想的選擇。我怎樣才能訪問文件上的數據,而不是先保存副本到我的磁盤?
這裏是我的嘗試至今:
library(RCurl); library(ncdf4)
d = getURL('ftp://podaac-ftp.jpl.nasa.gov/allData/ghrsst/data/L4/GLOB/JPL/MUR/2015/144/20150524-JPL-L4UHfnd-GLOB-v01-fv04-MUR.nc.bz2')
d = bzfile(d, open = 'r')
d = nc_open(d)
但我被困在第一行後,這個神祕的錯誤:
Error in curlPerform(curl = curl, .opts = opts, .encoding = .encoding) :
embedded nul in string: 'BZh91AY&SY¦ÁÀÉ\0033[ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿáåÏ\035\017)³îÎ\u009dÍØcn]sw7½ÎkÜÞõï=uÎׯv]ìçn\u009dÎn½îê·±Þìê÷wSM\u008có·+ÎçW¹Ý=Ù×¹\u009cγÜëÞs½ÛN¹²w;\u009buÍÝ]{·k^çuªnìº-³6«[+Üå;\033m»Û½ow:w¹ïo{uyîî\u00937¬\\Ƶl¶½\u009dÖVìç¯{ÎõïoSm]Ý×\u009eî\u008dæî®î®î\vÛÕïgW\036î®wqîÝ\\ïw«6½Þï\036Ýrë§=¬Fg·\\íåÔÙº÷gu·3\u009bKmÛ\027Þ»\u0092îî\016îêwwm»\u009b·s;MÞÁ½½ÎóÍso^»q¯o;k\033iµ\u009bÛuyÝÞní5w:ï]ÓuÎo[«\033:åÞvEÜíÎç½ÝË\u009eìQNöÔ\u008e\u0094vmÝȯg»e lÍ^\u008a©'
這似乎是基於其他類似問題的編碼問題但我嘗試了.encoding = 'UTF-8'
和.encoding = 'ISO-8859-1'
,如getURL()
文檔中所示,但都不起作用。 我見過類似這樣的問題的其他答案,但他們似乎都涉及編輯源文件。但是,我沒有對此文件的寫入權限。任何幫助?
這怎麼可能?您寧願等待幾次從網絡上下載3GB,而不是將其存儲在本地磁盤上 - 是對的嗎?如果你不想存儲它,你打算如何訪問它? –
對不起,澄清:有多個文件是每個3 GB。不想多次下載同一個文件。有沒有辦法只將數據的一個子集下載到我的硬盤?我只需要每個文件大約100 MB的3 GB數據。有沒有辦法搜索服務器上的文件,並只下載我想要的數據子集? – CephBirk