2016-10-10 144 views
0

我無法將拆分應用於data.frame,然後將某些彙總結果彙編回不同的data.frame。我嘗試使用'unsplit'函數,但我無法弄清楚如何正確使用它來獲得所需的結果。讓我來演示一下常見的'mtcars'數據:假設我的最終結果是獲得一個帶有兩個變量的數據框:cyl(柱面)和mean_mpg(對於共享相同柱面數的汽車組,mpg的平均值)。拆分後重新組裝數據幀

因此,最初的分裂是這樣的:

spl <- split(mtcars, mtcars$cyl) 

其結果看起來是這樣的:

$`4` 
       mpg cyl disp hp drat wt qsec vs am gear carb 
Datsun 710  22.8 4 108.0 93 3.85 2.320 18.61 1 1 4 1 
Merc 240D  24.4 4 146.7 62 3.69 3.190 20.00 1 0 4 2 
... 

$`6` 
       mpg cyl disp hp drat wt qsec vs am gear carb 
Mazda RX4  21.0 6 160.0 110 3.90 2.620 16.46 0 1 4 4 
Mazda RX4 Wag 21.0 6 160.0 110 3.90 2.875 17.02 0 1 4 4 
... 

$`8` 
        mpg cyl disp hp drat wt qsec vs am gear carb 
Hornet Sportabout 18.7 8 360.0 175 3.15 3.440 17.02 0 0 3 2 
Duster 360   14.3 8 360.0 245 3.21 3.570 15.84 0 0 3 4 
... 

現在我想做的線沿線的東西:

df <- as.data.frame(lapply(spl, function(x) mean(x$mpg)), col.names=c("cyl", "mean_mpg")) 

但是,做出以上結果爲:

  X4  X6 X8 
1 26.66364 19.74286 15.1 

雖然我願意使用df是這樣的:

cyl mean_mpg 
1 4 26.66364 
2 6 19.74286 
3 8 15.10000 

感謝,J.

+0

'骨料(MPG〜缸,mtcars,函數(X){平均(X)})' – alistaire

回答

1

如果你只在重組拆分興趣再看看(2),(4 )和(4a)中,但如果實際的基礎問題實際上是關於執行以上基團的聚合的方式那麼它們所有可能感興趣的:

1)骨料通常使用一個作爲aggregate人準備在評論中提到。簡化@ alistaire的代碼稍微:

aggregate(mpg ~ cyl, mtcars, mean) 

2)分/ lapply/do.call也@rawr已經給出了其中我們也可以略微簡化的意見分裂/ lapply/do.call解決方案:

spl <- split(mtcars, mtcars$cyl) 
do.call("rbind", lapply(spl, with, data.frame(cyl = cyl[1], mpg = mean(mpg)))) 

3)do.call/by最後一個可替代地在術語重寫的by

do.call("rbind", by(mtcars, mtcars$cyl, with, data.frame(cyl = cyl[1], mpg = mean(mpg)))) 

4)拆分/ lapply /非剖分另一種可能性是使用splitunsplit

spl <- split(mtcars, mtcars$cyl) 
L <- lapply(spl, with, data.frame(cyl = cyl[1], mpg = mean(mpg), row.names = cyl[1])) 
unsplit(L, sapply(L, "[[", "cyl")) 

4A)或如果行的名稱是足夠:

spl <- split(mtcars, mtcars$cyl) 
L <- lapply(spl, with, data.frame(mpg = mean(mpg), row.names = cyl[1])) 
unsplit(L, sapply(L, rownames)) 

上述不使用任何包,但也有很多包可以做聚合,包括dplyr,data.table和sqldf:

5)dplyr

library(dplyr) 
mtcars %>% 
     group_by(cyl) %>% 
     summarize(mpg = mean(mpg)) %>% 
     ungroup() 

6)的數據。表

library(data.table) 
as.data.table(mtcars)[, list(mpg = mean(mpg)), by = "cyl"] 

7)sqldf

library(sqldf) 
sqldf("select cyl, avg(mpg) mpg from mtcars group by cyl") 
+0

完美,正是我需要的。謝謝! – Jaroslav