2013-04-08 71 views
15

data.table真棒,因爲我可以滾動連接,甚至可以在滾動連接內組滾動連接:前後滾動

library(data.table) 
set.seed(42) 
metrics <- data.frame(
    ID=c(rep(1, 10), rep(2,5), rep(3,5)), 
    Time=c(1:10, 4:8, 8:12), 
    val1=runif(20), 
    val2=runif(20), 
    val3=runif(20), 
    val4=runif(20) 
) 
metrics <- data.table(metrics[sample(1:nrow(metrics), 15),], key=c('ID', 'Time')) 
calendar <- data.table(expand.grid(ID=1:3, Time=1:12), key=c('ID', 'Time')) 

metrics[calendar,roll=TRUE] 

但是,這對我來說不夠好。這data.table仍然有來港:

> metrics[calendar,roll=TRUE] 
    ID Time  val1  val2  val3  val4 
1: 1 1 0.9148060 0.9040314 0.3795592 0.675607275 
2: 1 2 0.9370754 0.1387102 0.4357716 0.982817198 
3: 1 3 0.9370754 0.1387102 0.4357716 0.982817198 
4: 1 4 0.8304476 0.9466682 0.9735399 0.566488424 
5: 1 5 0.8304476 0.9466682 0.9735399 0.566488424 
6: 1 6 0.5190959 0.5142118 0.9575766 0.189473935 
7: 1 7 0.7365883 0.3902035 0.8877549 0.271286615 
8: 1 8 0.7365883 0.3902035 0.8877549 0.271286615 
9: 1 9 0.6569923 0.4469696 0.9709666 0.693204820 
10: 1 10 0.7050648 0.8360043 0.6188382 0.240544740 
11: 1 11 0.7050648 0.8360043 0.6188382 0.240544740 
12: 1 12 0.7050648 0.8360043 0.6188382 0.240544740 
13: 2 1  NA  NA  NA   NA 
14: 2 2  NA  NA  NA   NA 
15: 2 3  NA  NA  NA   NA 
16: 2 4 0.4577418 0.7375956 0.3334272 0.042988796 
17: 2 5 0.7191123 0.8110551 0.3467482 0.140479094 
18: 2 6 0.9346722 0.3881083 0.3984854 0.216385415 
19: 2 7 0.2554288 0.6851697 0.7846928 0.479398564 
20: 2 8 0.2554288 0.6851697 0.7846928 0.479398564 
21: 2 9 0.2554288 0.6851697 0.7846928 0.479398564 
22: 2 10 0.2554288 0.6851697 0.7846928 0.479398564 
23: 2 11 0.2554288 0.6851697 0.7846928 0.479398564 
24: 2 12 0.2554288 0.6851697 0.7846928 0.479398564 
25: 3 1  NA  NA  NA   NA 
26: 3 2  NA  NA  NA   NA 
27: 3 3  NA  NA  NA   NA 
28: 3 4  NA  NA  NA   NA 
29: 3 5  NA  NA  NA   NA 
30: 3 6  NA  NA  NA   NA 
31: 3 7  NA  NA  NA   NA 
32: 3 8 0.9400145 0.8329161 0.7487954 0.719355838 
33: 3 9 0.9400145 0.8329161 0.7487954 0.719355838 
34: 3 10 0.1174874 0.2076590 0.1712643 0.375489965 
35: 3 11 0.4749971 0.9066014 0.2610880 0.514407708 
36: 3 12 0.5603327 0.6117786 0.5144129 0.001570554 
    ID Time  val1  val2  val3  val4 

我可以填補這些NA的使用zoo:::na.locffromLast=TRUE,但是這不是很好玩。任何人都可以想到一個優雅的方式,我可以滾動NA的落後(在向前滾動之後),在data.table加入期間?

回答

20

這是可能的data.table 1.8.8版2​​013年3月發佈:

metrics[calendar, roll=TRUE, rollends=c(TRUE, TRUE)] 

data.table NEWS file

除了TRUE/FALSE, '滾' 現在可能是一個正數(向前滾動/ LOCF)或負數(向後滾動/ NOCB)。有限數字限制了滾動的值(有限的陳舊度)值 。 roll = TRUE和roll = + Inf是等價的。 'rollends'是一個包含兩個邏輯的新參數。如果滾動的第一個值爲TRUE,則第一個觀測值向後滾動 。如果滾動 的第二個值爲TRUE,則最後一個觀察值會前滾。如果roll是有限數字,則相同的限制適用於末端。 當 值落入間隙中時,新值滾動='最接近'加入最接近的值(向後或向前),並根據'滾動'加至最終值。 'rolltolast'已被棄用。爲了向後兼容,它被轉換爲 {roll = TRUE; rollends = c(FALSE,FALSE)}。

與往常一樣,下載最先進的最新版本的data.table,看到Installation

+0

太棒了!哈哈哈,那真棒。 – Zach 2013-04-08 22:28:45

+0

+1我剛剛學到了很棒的東西!謝謝 – 2013-04-08 23:39:39

+0

我無法理解這一點「如果rollends1爲TRUE,則第一個觀察結果會向後滾動」。這是否意味着如果roll = + Inf,它將加入值LESS THAN以下 – eamo 2013-10-30 22:46:36

7

metrics[calendar, roll = TRUE, rollends = c(TRUE, TRUE)]