數據幀範圍內的唯一值數量

從數據幀中，我想提取特定Y範圍內（X的唯一值的數量）（例如，每隔0-100,101-200 ，201-300等可達3000）。數據幀範圍內的唯一值數量

例DF

一個耗時的方法是將運行每個範圍下面的代碼時間：

junk<-subset(df, Y > 0 & Y < 100) 

length(unique(junk$record.no))

但我要問專家 - 必須有一個更好的辦法？

來源

2014-02-18 hronne

您可以根據您想要的範圍和數據框的大小循環運行，然後通過轉換爲因子計算級別數：

range <- 100 #based on example 
loops <- nrow(df)/range 
lvlMatrix <- matrix(nrow=0,ncol=2,dimnames=list(NULL,c("range","unique values"))) 
for(a in 1:loops){ 
    sub <- df[((a-1)*range):(range*a),] 
    lvls<-nlevels(factor(sub$X)) 
    lvlMatrix <- rbind(lvlMatrix,cbind(paste(as.character((a-1)*range),"-",as.character(range*a),sep=""),lvls)) 
}

來源

2014-02-18 13:57:30 crazjo

這似乎是有效的：

aggregate(DF$X, list(cut(DF$Y, seq(0, 1000, 100))), function(x) unique(x)) 
# Group.1    x          #or length(unique(x)) 
#1 (0,100]   546 
#2 (100,200] 169, 154, 168 
#3 (200,300]  593, 60 
#4 (300,400]   568 
#5 (800,900]  85, 83

來源

2014-02-18 14:02:31

您可以by()和cut()做到這一點：

data <- data.frame(X=ceiling(rnorm(10000, 500, 10)), Y=runif(10000, 0, 3000)) 
data$Groups <- cut(data$Y, seq(0, 3000, 100)) # Create a categorical variable for each range 

by(data$X, data$Group, function(x) length(unique(x)))

來源

2014-02-18 14:04:17 Rcoster

+1'表（數據$組）'在這一點上也能很好地工作。注意用對象覆蓋函數'data'。 –

數據幀範圍內的唯一值數量

回答

相關問題