2015-04-07 73 views
3

我有NCDC的氣象數據集,每個站每小時觀測30到70年。每個記錄包括氣象站的ID,緯度,經度和高程。一個站點(站點)可以在70年內多次移動,而無需更改站點名稱或ID。我想創建不同位置的「站歷史」列表,以緯度,經度和/或高程(經緯度,高度)的變化表示。我有R代碼工作,直到我找到一個站後,幾次移動回到了舊的位置。這打破了我的R代碼。如何查找監測地點的開始和結束日期

一個站的數據大約有770000行和35列。我正在使用data.table。

簡體例如數據集兩個站「A」和「B」:

require("data.table") # ver 1.9.5 
DT=data.table(site=c(rep("A",8),rep("B",4)), 
       date=c(seq(from=as.POSIXct("2014-03-01",tz="GMT"), by="day", length.out=8), 
          seq(from=as.POSIXct("2014-07-01",tz="GMT"), by="day", length.out=4)), 
       lat=c(rep(30.1,3),rep(30.2,3),rep(30.1,2),rep(40.3,2),rep(40.4,2)), 
       lon=rep(50.7,12), 
       elev=c(35.0,35,36,36,35,35,35,35,51,52,52,52), 
       x=as.numeric(1:12)) # x is some meteorological data 
setkey(DT,site,date) 
DT 
# site    date lat lon elev x 
# 1: A 2014-03-01 01:00:00 30.1 50.7 35 1 
# 2: A 2014-03-02 01:00:00 30.1 50.7 35 2 
# 3: A 2014-03-03 01:00:00 30.1 50.7 36 3 
# 4: A 2014-03-04 01:00:00 30.2 50.7 36 4 
# 5: A 2014-03-05 01:00:00 30.2 50.7 35 5 
# 6: A 2014-03-06 01:00:00 30.2 50.7 35 6 
# 7: A 2014-03-07 01:00:00 30.1 50.7 35 7 
# 8: A 2014-03-08 01:00:00 30.1 50.7 35 8 
# 9: B 2014-07-01 02:00:00 40.3 50.7 51 9 
# 10: B 2014-07-02 02:00:00 40.3 50.7 52 10 
# 11: B 2014-07-03 02:00:00 40.4 50.7 52 11 
# 12: B 2014-07-04 02:00:00 40.4 50.7 52 12 

的每個站不同的位置的名單是:

DT.loc <- unique(DT[,.(site,lat,lon,elev)]) 
DT.loc 
# site lat lon elev 
# 1: A 30.1 50.7 35 
# 2: A 30.1 50.7 36 
# 3: A 30.2 50.7 36 
# 4: A 30.2 50.7 35 
# 5: B 40.3 50.7 51 
# 6: B 40.3 50.7 52 
# 7: B 40.4 50.7 52 

這將是最什麼,我需要,但是請注意DT行7-8站「A」返回到第一個位置。

期望的輸出是一個位置列表,其中包含每個位置觀察週期的第一個和最後一個日期。

# site   date.first   date.last lat lon elev 
# 1: A 2014-03-01 01:00:00 2014-03-02 01:00:00 30.1 50.7 35 
# 2: A 2014-03-03 01:00:00 2014-03-03 01:00:00 30.1 50.7 36 
# 3: A 2014-03-04 01:00:00 2014-03-04 01:00:00 30.2 50.7 36 
# 4: A 2014-03-05 01:00:00 2014-03-06 01:00:00 30.2 50.7 35 
# 5: A 2014-03-07 01:00:00 2014-03-08 01:00:00 30.1 50.7 35 
# 6: B 2014-07-01 02:00:00 2014-07-01 02:00:00 40.3 50.7 51 
# 7: B 2014-07-02 02:00:00 2014-07-02 02:00:00 40.3 50.7 52 
# 8: B 2014-07-03 02:00:00 2014-07-04 02:00:00 40.4 50.7 52 

我最初有以下代碼來產生一個類似的列表,但它沒有標識返回到舊的位置。

# find first occurence of each location. 
# This requires DT to be keyed on site,lat,lon,elev,date 
setkey(DT,site,lat,lon,elev,date) 
DT.loc.first <- DT[DT.loc, mult="first", which=TRUE] 
# find last occurence of each location 
DT.loc.last <- DT[DT.loc, mult="last", which=TRUE] 
# get first rows and select columns for history table 
DT.hist <- DT[DT.loc.first, .(site,date.first=date,lat,lon,elev)] 
# add date from last row for location 
DT.hist[, date.last:=DT[DT.loc.last,date]] 
# rearrange and sort the history table 
DT.hist <- DT.hist[,.(site,date.first,date.last,lat,lon,elev)] 
setkey(DT.hist,site,date.first) 
DT.hist 
# site   date.first   date.last lat lon elev 
# 1: A 2014-03-01 01:00:00 2014-03-08 01:00:00 30.1 50.7 35 
# 2: A 2014-03-03 01:00:00 2014-03-03 01:00:00 30.1 50.7 36 
# 3: A 2014-03-04 01:00:00 2014-03-04 01:00:00 30.2 50.7 36 
# 4: A 2014-03-05 01:00:00 2014-03-06 01:00:00 30.2 50.7 35 
# 5: B 2014-07-01 02:00:00 2014-07-01 02:00:00 40.3 50.7 51 
# 6: B 2014-07-02 02:00:00 2014-07-02 02:00:00 40.3 50.7 52 
# 7: B 2014-07-03 02:00:00 2014-07-04 02:00:00 40.4 50.7 52 

爲第一位置的date.last實際上是所述第一位置的第二佔領date.last,並且應具有一個單獨的行中,由於站(上面的行4之後)「A」實際上具有5個觀察週期。

如何創建所需的站歷史記錄,並在每個連續時間段的首個和最後一個日期在某個位置?

回答

1

優雅答案由阿倫中Khashaa答案評論:

# making use of DT's sort order on site,date: 
DT.hist <- DT[, .(date.first=date[1L], date.last=date[.N]), 
       by=.(rleid(site,lat,lon,elev),site,lat,lon,elev)] 

# select columns and set sort key of result 
DT.hist <- DT.hist[,.(date.last,lat,lon,elev),keyby=.(site,date.first)] 
DT.hist 
# site   date.first   date.last lat lon elev 
# 1: A 2014-03-01 01:00:00 2014-03-02 01:00:00 30.1 50.7 35 
# 2: A 2014-03-03 01:00:00 2014-03-03 01:00:00 30.1 50.7 36 
# 3: A 2014-03-04 01:00:00 2014-03-04 01:00:00 30.2 50.7 36 
# 4: A 2014-03-05 01:00:00 2014-03-06 01:00:00 30.2 50.7 35 
# 5: A 2014-03-07 01:00:00 2014-03-08 01:00:00 30.1 50.7 35 
# 6: B 2014-07-01 02:00:00 2014-07-01 02:00:00 40.3 50.7 51 
# 7: B 2014-07-02 02:00:00 2014-07-02 02:00:00 40.3 50.7 52 
# 8: B 2014-07-03 02:00:00 2014-07-04 02:00:00 40.4 50.7 52 

這將創建歷史表,而無需修改DT或改變DT的關鍵。 將site,lat,lon,elev添加到by =會乾淨地將這些列添加到輸出中,即使它們不會更改分組(冗餘爲rleid)。

或者,不部位,緯度,經度,海拔在通過=:

DT.hist2 <- DT[, .(date.first=date[1L], date.last=date[.N], 
       lat=lat[1L], lon=lon[1L], elev=elev[1L]), 
       by=.(rleid(site,lat,lon,elev))] 

但這更鍵入的,而不是更容易閱讀。

相關問題