在R中使用聚合子集數據的結果

我使用R的stats包中的mad函數來識別異常值。使用aggregate，我能找到的邊界值因子含量的，像這樣每一個獨特的組合：在R中使用聚合子集數據的結果

require(stats) 
set.seed(492) 
y <- rnorm(2000) 
x1 <- sample(letters[1:2], 2000,T) 
x2 <- sample(letters[1:2], 2000,T) 
df <- data.frame(y,x1,x2) 

boundaries <- aggregate(df$y, list(df$x1, df$x2), function(x) cbind(median(x) 
+ (3*mad(x)), median(x) - (3*mad(x))))

其中給出：

+---------------------------------------+ 
| Group.1 Group.2  x.1  x.2 | 
+---------------------------------------+ 
| 1  a  a 2.875560 -2.809068 | 
| 2  b  a 2.867109 -2.843691 | 
| 3  a  b 3.137889 -2.960135 | 
| 4  b  b 3.091169 -3.134296 | 
+---------------------------------------+

x.1是上限和x.2是下限。我想要子集df，以便對每個因子級別的組合刪除異常值 - 例如，在aa中，我不希望任何高於2.88或-2.80的值，但對於ab，我希望上限值爲3.14，下限爲-2.96。

到目前爲止，我使用by已經試過，但它返回0行長度數據幀：

by(df$y, list(df$x1, df$x2), function(x) df[which(df$y>(median(x) + (3*mad(x))) &  df$y<(median(x) - (3*mad(x)))),])

任何指導是非常讚賞。

來源

2014-03-25 luser

「x.2」是否也代表下限？ – A5C1D2H2I1M1N2O1R2T1

是的，對不起！我會在問題中澄清。 – luser

這是使用plyr的解決方案。它使用拆分應用組合範例。我們首先使用列x1和x2將數據幀拆分成小塊。對於每個片段d（它是一個數據幀），我們計算出其中我們將認爲是異常值y的界限，然後使用邏輯索引來僅返回那些非異常值的那些行d。最後，ddply負責將所有子集化的片段組合成單個數據幀。

library(plyr) 
df2 = ddply(df, .(x1, x2), function(d){ 
    limits = median(d$y) + 3*c(-1, 1)*mad(d$y) 
    d[(d$y - limits[1])*(limits[2] - d$y) > 0,] 
})

來源

2014-03-25 13:50:06 Ramnath

我最初嘗試使用'ddply'，但沒有得到任何好處。感謝您的解釋，我明白如何使用'plyr'現在好一點。 – luser

我想你可以使用merge然後一些標準子集。在下文中，我修改了您的aggregate聲明以產生更好的名稱，以使merge更直接。我還使用do.call(data.frame, ...)將矩陣列平鋪爲彙總的data.frame中的列。

boundaries <- aggregate(y ~ x1 + x2, df, function(x) 
    cbind(median(x) + (3*mad(x)), median(x) - (3*mad(x)))) 
boundaries <- do.call(data.frame, boundaries) 

out <- merge(df, boundaries) 
head(out) 
# x1 x2   y  y.1  y.2 
# 1 a a -0.4003471 2.87556 -2.809068 
# 2 a a -0.5652717 2.87556 -2.809068 
# 3 a a 0.1185306 2.87556 -2.809068 
# 4 a a 1.2634333 2.87556 -2.809068 
# 5 a a 0.3585731 2.87556 -2.809068 
# 6 a a -0.1436202 2.87556 -2.809068 

out2 <- out[with(out, y.2 < y & y < y.1), c("y", "x1", "x2")] 
head(out2) 
#   y x1 x2 
# 1 -0.4003471 a a 
# 2 -0.5652717 a a 
# 3 0.1185306 a a 
# 4 1.2634333 a a 
# 5 0.3585731 a a 
# 6 -0.1436202 a a 

dim(out2) 
# [1] 1993 3

來源

2014-03-25 13:45:21 A5C1D2H2I1M1N2O1R2T1

'R'報告'[.default'（xj，i）中的錯誤：當我嘗試初始創建'邊界'時無效的下標類型'closure'。任何想法可能會發生什麼？ – luser

@luser，你實際的'data.frame'叫做「df」嗎？您是否與您發佈的此示例數據集有同樣的問題？ – A5C1D2H2I1M1N2O1R2T1

我的實際'data.frame'不叫'df'或任何其他系統保留名稱。當我清除工作空間並複製粘貼我放在這裏的代碼時，我遇到了同樣的問題。 – luser

該功能篩選值，以滿足你的條件，結構化，以避免位的不必要的重新計算和狂

filt <- function (x) { 
    b <- median(x) + mad(x) * c(-3, 3) 
    x[x > b[1] & x < b[2]] 
}

骨料自己的原始數據幀，其結果列「Y」是一個列表滿足過濾準則-of-矢量

df1 <- aggregate(y ~ x1 + x2, df, filt, simplify=FALSE)

指示器變量然後複製，並且該列表的向量未上市，以獲得最終的represe到達ntation

len <- sapply(df1$y, length) 
result <- data.frame(x1=rep(df1$x1, len), x2=rep(df1$x2, len), 
        y=unlist(df1$y, use.names=FALSE))

來源

2014-03-25 15:25:19

在R中使用聚合子集數據的結果

回答

相關問題