2016-10-03 114 views
0

所以最近我一直在學習聚合的功能,我發現它對於我使用的大數據集非常有用。通常我在Excel中手動操作數據,雖然有效,但卻非常耗時。使用聚合來促進計算

所以我想知道是否可以做到以下幾點。我有一個類似的結構,像這樣(但更大)的數據集:

Fruit Crate Mass 
Apple A  4 
Banana A  3.4 
Orange B  2 
Apple C  2.1 
Apple C  4.5 
Banana C  5 
Orange D  1 
Apple D  1.3 
Orange D  2.4 
Orange D  3.2 
Orange E  2 
Banana E  1.1 
Banana E  0.7 
Apple E  2 

現在我知道這個,我得到每箱重量:

TotalCrate<-aggregate(data$Mass,list(crate=data$Crate), sum)

而與此我得到大衆每箱水果:

FruitperCrate<-aggregate(data$Mass, list(fruit=data$Fruit, crate=data$Crate), sum)

現在是有辦法,我可以得到每箱水果的質量百分比,所以基本上,我有沒有辦法可以將果實質量除以每個相應包裝箱的總質量?如果是這樣,我怎麼做,以備將來參考。

任何幫助表示讚賞。

謝謝

+0

什麼'FruitperCrate $ PercentMassOfFruitPerCrate < - FruitperCrate $ X/TotalCrate [FruitperCrate $板條箱中, 「x」]'? – HubertL

+1

請以可複製的形式提供輸入。見[mcve]。在這種情況下,我在答案末尾的註釋中已經爲你做了。 –

回答

3

1)通過FruitCrate然後首先骨料使用aveprop.table獲得每個水果的比例在箱子:

ag <- aggregate(Mass ~ Fruit + Crate, data, sum) 
tr <- transform(ag, percent = 100 * ave(Mass, Crate, FUN = prop.table)) 

捐贈:

> tr 
    Fruit Crate Mass percent 
1 Apple  A 4.0 54.05405 
2 Banana  A 3.4 45.94595 
3 Orange  B 2.0 100.00000 
4 Apple  C 6.6 56.89655 
5 Banana  C 5.0 43.10345 
6 Apple  D 1.3 16.45570 
7 Orange  D 6.6 83.54430 
8 Apple  E 2.0 34.48276 
9 Banana  E 1.8 31.03448 
10 Orange  E 2.0 34.48276 

或圖形:

library(ggplot2) 
ggplot(tr, aes(Crate, percent, fill = Fruit)) + 
    geom_bar(stat = "identity") + 
    scale_fill_manual(values = c("red", "yellow", "orange")) 
使用dplyr遵循類似的邏輯可替代

library(magrittr) 
data %>% 
    do(aggregate(Mass ~ Fruit + Crate, ., sum)) %>% 
    transform(percent = 100 * ave(Mass, Crate, FUN = prop.table)) 

2)和這裏:

screenshot

1A)這也可以在一個magrittr管道來表示這樣

library(dplyr) 
data %>% 
    group_by(Crate, Fruit) %>% 
    summarize(Mass = sum(Mass)) %>% 
    ungroup() %>% 
    group_by(Crate) %>% 
    mutate(percent = 100 * prop.table(Mass)) %>% 
    ungroup() 

給出:

# A tibble: 10 x 4 
    Crate Fruit Mass percent 
    <fctr> <fctr> <dbl>  <dbl> 
1  A Apple 4.0 54.05405 
2  A Banana 3.4 45.94595 
3  B Orange 2.0 100.00000 
4  C Apple 6.6 56.89655 
5  C Banana 5.0 43.10345 
6  D Apple 1.3 16.45570 
7  D Orange 6.6 83.54430 
8  E Apple 2.0 34.48276 
9  E Banana 1.8 31.03448 
10  E Orange 2.0 34.48276 

3)一個二維佈局可以用xtabs可得:

xt <- 100 * prop.table(xtabs(Mass ~ Crate + Fruit, data), 1) 

給予:

> xt 
    Fruit 
Crate  Apple Banana Orange 
    A 54.05405 45.94595 0.00000 
    B 0.00000 0.00000 100.00000 
    C 56.89655 43.10345 0.00000 
    D 16.45570 0.00000 83.54430 
    E 34.48276 31.03448 34.48276 

其可容易地在一個曲線圖中顯示這樣的:

plot(xt, col = c("red", "yellow", "orange"), 
    main = "Proportion of Mass of Fruit per Crates") 

給出:

screenshot

二維佈局可以重整爲長格式與ftable

ftable(xt, row.vars = 1:2) 

,並提供:

Crate Fruit    
A  Apple 54.05405 
     Banana 45.94595 
     Orange 0.00000 
B  Apple  0.00000 
     Banana 0.00000 
     Orange 100.00000 
C  Apple 56.89655 
     Banana 43.10345 
     Orange 0.00000 
D  Apple 16.45570 
     Banana 0.00000 
     Orange 83.54430 
E  Apple 34.48276 
     Banana 31.03448 
     Orange 34.48276 

注1:的代碼中的問題的兩行可以使用如下公式符號來書寫:

aggregate(Mass ~ Crate, data, sum) 

aggregate(Mass ~ Fruit + Crate, data, sum) 

注2:輸入在再現的形式使用是:

Lines <- "Fruit Crate Mass 
Apple A  4 
Banana A  3.4 
Orange B  2 
Apple C  2.1 
Apple C  4.5 
Banana C  5 
Orange D  1 
Apple D  1.3 
Orange D  2.4 
Orange D  3.2 
Orange E  2 
Banana E  1.1 
Banana E  0.7 
Apple E  2" 
data <- read.table(text = Lines, header = TRUE) 
0

這裏是你的解決方案,使用data.table,但一定會有別的辦法:

library(data.table) 
setDT(data) 
data[ , mass := sum(mass), by = .(crate, fruit) ] 
data <- unique(data) 
data[ , total.mass.crate := sum(mass), by = crate ] 
data[ , percentage.mass.crate := (mass/total.mass.crate) * 100 ] 

因此,我們首先彙總每個箱子內的每個水果的質量(因爲我注意一些果實在一個箱子裏不止一次被列出)以獲得箱子中該水果的總質量。然後我們添加一列來顯示每個箱子的總質量,顯示每一行的值。然後,通過將每個果實的質量除以該包裝箱的總質量,我們得到包裝箱中每個果實的質量百分比。

相關問題