我正在嘗試對將公司分類爲20個不同行業和800個類別的數據集進行分析。每個行業類別都有自己的專欄。下面是一個示例數據幀R - 按多列分組
df <- data.frame(biz.name=c("goog", "face", "eb"), worth=c(100, 200, 300),
cat1=c("social", "social", "social"), cat2=c(NA, "search", "finance"),
cat3=c(NA, NA, "commerce"))
我想知道如何在不同類型的類別分析運行。例如,我將如何獲得不同類別的平均價值,即「社交」或「金融」。每家公司最多可以有20個類別(每行不重複)。
的dplyr包是我正常去到GROUP_BY方法,但鏈接似乎並不多列
cat.test <- df %>%
group_by(cat1:cat2) %>%
summarise (avg = mean(is.na(worth)))
的代碼產生一個度量的企業每個排列與多個類別的組合工作,而不是單獨分類。在示例數據框架中,社交類別的總淨值應爲600,平均值爲300.
我已經查看了多個教程,但還沒有找到一個可以爲group_by多列的教程。謝謝,讓我知道如果我可以更清楚地提出這個問題。
[更新:編輯data.frame代碼]
op!抱歉的人。我固定 – tom
不應該是600和平均200. 600/3 = 200? – thelatemail