我想按因子子集數據框。我只想保留一定頻率以上的因子水平。從數據框中刪除罕見因子水平的優雅方法
df <- data.frame(factor = c(rep("a",5),rep("b",5),rep("c",2)), variable = rnorm(12))
此代碼創建數據幀:
factor variable
1 a -1.55902013
2 a 0.22355431
3 a -1.52195456
4 a -0.32842689
5 a 0.85650212
6 b 0.00962240
7 b -0.06621508
8 b -1.41347823
9 b 0.08969098
10 b 1.31565582
11 c -1.26141417
12 c -0.33364069
我要丟棄哪些重複小於5倍因子水平。我開發了一個for循環和它的工作:
for (i in 1:length(levels(df$factor))){
if(table(df$factor)[i] < 5){
df.new <- df[df$factor != names(table(df$factor))[i],]
}
}
但做更快,更漂亮的解決方案存在?
你可能需要一個半加入 – hadley