我使用data.table的by參數創建了很多列。以下是我將用來說明問題的一些示例數據。如何使用data.table'by'參數來創建多列數據?
> dt <- data.table(x=runif(10), group=c(1,1,1,1,1,2,2,2,2,2))
> dt
x group
1: 0.0488727 1
2: 0.3087102 1
3: 0.8107115 1
4: 0.7368206 1
5: 0.2941478 1
6: 0.5221693 2
7: 0.2505612 2
8: 0.2730681 2
9: 0.2098595 2
10: 0.4512163 2
我想使用「by」參數爲每組數據做一些彙總統計。一種選擇是他們都在dt
分配給列:
> dt[, max:=max(x), by=group]
> dt[, min:=min(x), by=group]
> dt[, mean:=mean(x), by=group]
> dt[, median:=median(x), by=group]
> dt
x group max min mean median
1: 0.0488727 1 0.8107115 0.0488727 0.4398526 0.3087102
2: 0.3087102 1 0.8107115 0.0488727 0.4398526 0.3087102
3: 0.8107115 1 0.8107115 0.0488727 0.4398526 0.3087102
4: 0.7368206 1 0.8107115 0.0488727 0.4398526 0.3087102
5: 0.2941478 1 0.8107115 0.0488727 0.4398526 0.3087102
6: 0.5221693 2 0.5221693 0.2098595 0.3413749 0.2730681
7: 0.2505612 2 0.5221693 0.2098595 0.3413749 0.2730681
8: 0.2730681 2 0.5221693 0.2098595 0.3413749 0.2730681
9: 0.2098595 2 0.5221693 0.2098595 0.3413749 0.2730681
10: 0.4512163 2 0.5221693 0.2098595 0.3413749 0.2730681
,因爲你有很多不必要的重複元素創建列,這是不好的。我不知道合理的方式來摺疊data.table。
另一種方法是把每個結果到一個單獨的data.table,然後把它們合併起來:
> a<-dt[, max(x), by=group]
> b<-dt[, min(x), by=group]
> c<-dt[, mean(x), by=group]
> d<-dt[, median(x), by=group]
> setnames(a, "V1", "max")
> setnames(b, "V1", "min")
> setnames(c, "V1", "mean")
> setnames(d, "V1", "median")
> setkeyv(a, "group")
> setkeyv(b, "group")
> setkeyv(c, "group")
> setkeyv(d, "group")
> dt.summary.stats -> a[b][c][d]
> dt.summary.stats
group max min mean median
1: 1 0.8107115 0.0488727 0.4398526 0.3087102
2: 2 0.5221693 0.2098595 0.3413749 0.2730681
dt.summary.stats包含了我想要的結果,但這種感覺就像一個非常愚蠢的辦法到達那裏。什麼是正確的方法來做到這一點?
您可以在plyr包ddply嘗試。 ddply(dt,。(group),summary,max = max(x),min = min(x),mean = mean(x),median = median(x)) – Bangyou
有點類似:http://stackoverflow.com /問題/ 16342261 /創建-A-表爲正最小 - 最大-SD-均值和中值在-R/16342881#16342881 – Frank