2013-07-28 56 views
4

我想打電話給計算像下面一組彙總統計的data.table裏面的函數:如何調用返回data.table中的多行和多列的函數?

summ.stats <- function(vec) { 
    list(
     Min = min(vec), 
     Mean = mean(vec), 
     S.D. = sd(vec), 
     Median = median(vec), 
     Max = max(vec)) 
} 

,我想它調用的j一個data.table

DT <- data.table(a=c(1,2,3,1,2,3),b=c(1,4,3,2,1,4),c=c(2,3,4,5,2,1)) 

DT[, summ.stats(b), by=a] 

這很好,我也得到:

a Min Mean  S.D. Median Max 
1: 1 1 1.5 0.7071068 1.5 2 
2: 2 1 2.5 2.1213203 2.5 4 
3: 3 3 3.5 0.7071068 3.5 4 

但我感興趣的傳遞多個變量summ.stats。例如:

DT[, summ.stats(b, c), by=a] 

我想要得到的東西,如:

a Var Min Mean  S.D. Median Max 
1: 1 b 1 1.5 0.7071068 1.5 2 
2: 2 b 1 2.5 2.1213203 2.5 4 
3: 3 b 3 3.5 0.7071068 3.5 4 
4: 1 c 2 3.5 2.1213203 3.5 5 
5: 2 c 2 2.5 0.7071068 2.5 3 
6: 3 c 1 2.5 2.1213203 2.5 4 

什麼是做到這一點的最好方法是什麼?

回答

5

輕微的重新定義或者您可以按如下修改功能:

summ.stats <- function(vec) { 
    list(
     Var = names(vec), 
     Min = sapply(vec, min), 
     Mean = sapply(vec, mean), 
     S.D. = sapply(vec, sd), 
     Median = sapply(vec, median), 
     Max = sapply(vec, max)) 
} 

DT[, summ.stats(.SD), by=a] # no need for as.list(.SD) as Roger mentions 
    a Var Min Mean  S.D. Median Max 
1: 1 b 1 1.5 0.7071068 1.5 2 
2: 1 c 2 3.5 2.1213203 3.5 5 
3: 2 b 1 2.5 2.1213203 2.5 4 
4: 2 c 2 2.5 0.7071068 2.5 3 
5: 3 b 3 3.5 0.7071068 3.5 4 
6: 3 c 1 2.5 2.1213203 2.5 4 
+0

這是一個更簡單的解決方案,更符合我的期望。但我想我們可以刪除'as.list'函數,不是嗎? – Rodrigo

+0

@RogerBill,是的,你是對的。先將'sapply'或'lapply'內部轉換爲'list'。 – Arun

3

沒有明確地重塑長的形式,你可以不喜歡

rbindlist(lapply(c('b','c'), function(x) data.table(var = x, DT[,summ.stats(get(x)),by=a]))) 



# var a Min Mean  S.D. Median Max 
# 1: b 1 1 1.5 0.7071068 1.5 2 
# 2: b 2 1 2.5 2.1213203 2.5 4 
# 3: b 3 3 3.5 0.7071068 3.5 4 
# 4: c 1 2 3.5 2.1213203 3.5 5 
# 5: c 2 2 2.5 0.7071068 2.5 3 
# 6: c 3 1 2.5 2.1213203 2.5 4 

如果reshape數據以長格式

reshape(DT, direction = 'long', 
      varying = list(value = c('b','c')), 
      times = c('b','c'))[,summ.stats(b), by = list(a, Var = time)] 

也能發揮作用。


效率較低,你可以使用ldply從plyr,與功能

summ.stats2 <- function(vec) { 
    data.table(
     Min = min(vec), 
     Mean = mean(vec), 
     S.D. = sd(vec), 
     Median = median(vec), 
     Max = max(vec)) 
} 
library(plyr) 
DT[, ldply(lapply(.SD, summ.stats2)),by =a] 
+1

感謝。但用這種方法,我會得到兩列(b和c)而不是5列(最小值,平均值,S.D.,中值和最大值)。我需要和summ.stats函數返回的列一樣多。有沒有辦法「轉置」這些子矩陣? – Rodrigo

+0

@Roger - 好點。我有 – mnel