我有一個包含22000行和25列的大型數據集。我試圖根據其中一列對我的數據集進行分組,並根據分組數據集獲取另一列的最小值。然而,問題在於它只給出了兩列包含分組列和具有最小值的列......但我需要與具有最小值的行相關的其他列的所有信息。 下面是一個簡單的例子,只是爲了讓重複性:應用group_by並彙總數據,同時保留所有列的信息
data<- data.frame(a=1:10, b=c("a","a","a","b","b","c","c","d","d","d"), c=c(1.2, 2.2, 2.4, 1.7, 2.7, 3.1, 3.2, 4.2, 3.3, 2.2), d= c("small", "med", "larg", "larg", "larg", "med", "small", "small", "small", "med"))
d<- data %>%
group_by(b) %>%
summarise(min_values= min(c))
d
b min_values
1 a 1.2
2 b 1.7
3 c 3.1
4 d 2.2
所以,我也需要有相關的d一列和信息,但是,因爲我已經在列c我不能合併的值複製他們基於min_value列...我想知道是否有任何方法來保留其他列的信息,當我們使用dplyr包。
我在這裏找到了一些解釋「dplyr: group_by, subset and summarise」和這裏「Finding percentage in a sub-group using group_by and summarise」但沒有地址我的問題。
究竟你打算如何產生的data.frame會看?其他數據在壓縮爲單行時會如何查看? – r2evans