相對頻率/與dplyr的比例

假設我想計算每個組內不同值的比例。例如，使用所述數據mtcars，如何計算的齒輪通過上午（自動/手動）數的相對頻率一氣呵成與dplyr？相對頻率/與dplyr的比例

library(dplyr) 
data(mtcars) 
mtcars <- tbl_df(mtcars) 

# count frequency 
mtcars %>% 
    group_by(am, gear) %>% 
    summarise(n = n()) 

# am gear n 
# 0 3 15 
# 0 4 4 
# 1 4 8 
# 1 5 5

我想什麼來實現：

am gear n rel.freq 
0 3 15  0.7894737 
0 4 4  0.2105263 
1 4 8  0.6153846 
1 5 5  0.3846154

來源

2014-07-04 jenswirf

這些百分比是你想要的實際數量嗎？它們來自哪裏，代數？啊，79％是15 /（15 + 4），21％是4 /（15 + 4），然後對於== == 1 62％是8 /（8 + 5）等等。 – Spacedman

@Spacedman是的，這些是我想要的數字，弗蘭克是正確的，他們通過am變量（79 + 21）和（62 + 38）總和爲100％。 – jenswirf

這真的好像是在尋找一個本地的dplyr實現''prop.table（）'/'sweep（）'。此外，在其他問題中，有些人[要求爲變量或變量交互包含零計數]（http://stackoverflow.com/questions/23778195/using-dplyr-for-frequency-counts-of- – smci

143

試試這個：

mtcars %>% 
    group_by(am, gear) %>% 
    summarise (n = n()) %>% 
    mutate(freq = n/sum(n)) 

# am gear n  freq 
# 1 0 3 15 0.7894737 
# 2 0 4 4 0.2105263 
# 3 1 4 8 0.6153846 
# 4 1 5 5 0.3846154

從dplyr vignette：

當您通過多個變量組，每個彙總剝離分組的一個級別。這使得漸進式彙總數據集變得很容易。

因此，summarise後，分組變量「齒輪」被剝離，然後將數據「僅」通過「AM」（只是groups檢查它產生的數據）分組，在其上我們然後執行mutate計算。

「剝離」的結果當然取決於group_by調用中分組變量的順序。這次我們很幸運，它剝離了所需的變量。您可能希望執行後續的group_by(am)，以使您的代碼更加明確。

爲了四捨五入和美化，請參考@Tyler Rinker的好回答。

來源

2014-07-04 14:42:52 Henrik

我剛剛發現了這個解決方案，但是我不知道爲什麼'sum（n）'在'am'組而不是'gear'組上工作... – Spacedman

請參閱[小插曲]（http://cran.rstudio.com/web/packages/dplyr/vignettes/introduction.html）：「當您通過多個變量進行分組時，每個摘要將剝離分組的一個級別。」 – Henrik

不錯 - 如果你只是在'summarise'後面停下來，它確實說明哪些組會被留下。哦dplyr岩石... – Spacedman

@ Henrik的是易用性更好，因爲這會令列字符，不再數字匹配，但你問什麼...

mtcars %>% 
    group_by (am, gear) %>% 
    summarise (n=n()) %>% 
    mutate(rel.freq = paste0(round(100 * n/sum(n), 0), "%")) 

## am gear n rel.freq 
## 1 0 3 15  79% 
## 2 0 4 4  21% 
## 3 1 4 8  62% 
## 4 1 5 5  38%

編輯因爲Spacedman問它:-)

as.rel_freq <- function(x, rel_freq_col = "rel.freq", ...) { 
    class(x) <- c("rel_freq", class(x)) 
    attributes(x)[["rel_freq_col"]] <- rel_freq_col 
    x 
} 

print.rel_freq <- function(x, ...) { 
    freq_col <- attributes(x)[["rel_freq_col"]] 
    x[[freq_col]] <- paste0(round(100 * x[[freq_col]], 0), "%") 
    class(x) <- class(x)[!class(x)%in% "rel_freq"] 
    print(x) 
} 

mtcars %>% 
    group_by (am, gear) %>% 
    summarise (n=n()) %>% 
    mutate(rel.freq = n/sum(n)) %>% 
    as.rel_freq() 

## Source: local data frame [4 x 4] 
## Groups: am 
## 
## am gear n rel.freq 
## 1 0 3 15  79% 
## 2 0 4 4  21% 
## 3 1 4 8  62% 
## 4 1 5 5  38%

來源

2014-07-04 14:44:26

你總是可以用'format'方法創建一個S3「百分比」類，並添加一個百分號...... #overkill – Spacedman

實現這個也許很有趣：http://stackoverflow.com/questions/13483430/how-to -make-rounded-percentageages-add-up-to-100 – Spacedman

如果在這個例子中計算平均值，sd和SE，該怎麼辦？ – user3655531

可以使用count()功能，但具有取決於版本的dplyr不同的行爲：

dplyr 0.7.1：返回未分組表：你需要組再次am
dplyr < 0.7.1：再次返回分組表，因此無需組，雖然你可能想ungroup()供以後操作

dplyr 0.7.1

mtcars %>% 
    count(am, gear) %>% 
    group_by(am) %>% 
    mutate(freq = n/sum(n))

dplyr < 0.7。1

mtcars %>% 
    count(am, gear) %>% 
    mutate(freq = n/sum(n))

這導致成分組表，如果你想用它進行進一步的分析，這可能是與ungroup()刪除分組屬性很有用。

來源

2016-08-08 18:31:10 Matifou

這似乎是'dplyr' 0.7.1上的無效答案。它在「齒輪」上進行頻率計算，而不是在「am」的每個級別內。 – Edwin

好點，謝謝@Edwin !! – Matifou

這個回答基於Matifou的回答。

首先我對其進行了修改，以確保我沒有通過使用scipen選項獲得作爲科學記數法列返回的freq列。

然後，我將答案乘以100得到一個百分比而不是十進制數，以使freq列更容易閱讀爲百分比。

getOption("scipen") 
options("scipen"=10) 
mtcars %>% 
count(am, gear) %>% 
mutate(freq = (n/sum(n)) * 100)

來源

2016-12-22 11:28:43 Jazzmine

這是一個在dplyr 0.7.1上實現Henrik解決方案的一般功能。

freq_table <- function(x, 
         group_var, 
         prop_var) { 
    group_var <- enquo(group_var) 
    prop_var <- enquo(prop_var) 
    x %>% 
    group_by(!!group_var, !!prop_var) %>% 
    summarise(n = n()) %>% 
    mutate(freq = n /sum(n)) %>% 
    ungroup 
}

來源

2017-07-19 14:18:36 Edwin

這裏有一個函數來獲取一對變量的行總數和列總數。

freq_tibble <- function(data, var1, var2) { 
    var1 <- rlang::enquo(var1) 
    var2 <- rlang::enquo(var2) 

    data %>% 
    dplyr::count(!!var1, !!var2) %>% 
    tidyr::spread(!!var2, n, fill = 0) %>% 
    dplyr::mutate(Total := rowSums(dplyr::select(., -!!var1))) %>% 
    dplyr::bind_rows(dplyr::bind_cols(!!rlang::quo_name(var1) := "Total", dplyr::summarize_if(., is.numeric, sum))) 
}

來源

2018-02-22 22:39:51 jzadra

相對頻率/與dplyr的比例

回答

相關問題