假設我們有R中的以下數據集:鑑於最小列的,發現在其他colunm最小(dplyr)
> td
Type Rep Value1 Value2
1 A 1 7 1
2 A 2 5 4
3 A 3 5 3
4 A 4 8 2
5 B 1 5 10
6 B 2 6 1
7 B 3 7 1
8 C 1 8 13
9 C 2 8 13
> td <- structure(list(Type = structure(c(1L, 1L, 1L, 1L, 2L, 2L, 2L,
3L, 3L), .Label = c("A", "B", "C"), class = "factor"), Rep = c(1L,
2L, 3L, 4L, 1L, 2L, 3L, 1L, 2L), Value1 = c(7L, 5L, 5L, 8L, 5L,
6L, 7L, 8L, 8L), Value2 = c(1L, 4L, 3L, 2L, 10L, 1L, 1L, 13L,
13L)), .Names = c("Type", "Rep", "Value1", "Value2"), class = "data.frame",
row.names = c(NA, -9L))
我想產生如下表:
Type MinValue1 MinValue2 MeanValue1 MeanValue2
1 A 5 3 6.25 2.5
2 B 5 10 6.00 4.0
3 C 3 13 8.00 13.0
在此表中,數據通過「類型」進行彙總。列「MinValue1」是特定類型和列的最小值「MinValue2」是「Value2」的最小值,給定列「Value1」的最小值。列平均值*是所有觀測值的總體平均值。
這樣做的一種方法是實現遍歷每種類型的循環並進行數學運算。不過,我正在尋找一種更好/簡單/美觀的方式來執行此類操作。
我打的工具從 「tidyverse」:
> library(tidyverse)
> td %>%
group_by(Type) %>%
summarise(MinValue1 = min(Value1),
MeanValue1 = mean(Value1),
MeanValue2 = mean(Value2))
# A tibble: 3 × 4
Type MinValue1 MeanValue1 MeanValue2
<fctr> <int> <dbl> <dbl>
1 A 5 6.25 2.5
2 B 5 6.00 4.0
3 C 8 8.00 13.0
請注意,我們還沒有列 「MinValue2」 在這裏。還要注意,「總結(...,MinValue2 = min(Value2),...)」不起作用,因爲此解決方案採用一種類型的所有觀察值中的最小值。
我們可能會與「切片」玩,然後合併結果:
> td %>% group_by(Type) %>% slice(which.min(Value1))
Source: local data frame [3 x 4]
Groups: Type [3]
Type Rep Value1 Value2
<fctr> <int> <int> <int>
1 A 3 5 4
2 B 1 5 10
3 C 1 8 13
但要注意的是,「切片」工具並不能幫助我們在這裏:「A型,值1 5」應該有「值2」 == 3,而不是== 4作爲切片返回。
那麼,你們有沒有一種優雅的方式來達到我追求的效果?謝謝!
非常感謝。最後一個選項是我正在尋找的那個。 –