加速查詢R data.table - 這個雙參數函數可以更迅速地按組應用嗎？

是否可以使用data.table在數據集上快速按組應用雙參數函數？在一百萬行的數據集上，我發現調用下面定義的簡單函數超過了11秒，這比我期望的要複雜得多。下面加速查詢R data.table - 這個雙參數函數可以更迅速地按組應用嗎？

自包含的代碼概括了什麼，我試圖做的要領：

# generate data frame - 1 million rows 
library(data.table) 
set.seed(42) 
nn = 1e6 
daf = data.frame(aa=sample(1:1000, nn, repl=TRUE), 
       bb=sample(1:1000, nn, repl=TRUE), 
       xx=rnorm(nn), 
       yy=rnorm(nn), 
       stringsAsFactors=FALSE) 

# myfunc is the function to apply to each group 
myfunc = function(xx, yy) { 
    if (max(yy)>1) { 
    return(mean(xx)) 
    } else { 
    return(weighted.mean(yy, ifelse(xx>0, 2, 1))) 
    } 
} 

# running the function takes around 11.5 seconds 
system.time({ 
    dt = data.table(daf, key=c("aa","bb")) 
    dt = dt[,myfunc(xx, yy), by=c("aa","bb")] 
}) 

head(dt) 
# OUTPUT: 
# aa bb   V1 
# 1: 1 2 -1.02605645 
# 2: 1 3 -0.49318243 
# 3: 1 4 0.02165797 
# 4: 1 5 0.40811793 
# 5: 1 6 -1.00312393 
# 6: 1 7 0.14754417

有沒有一種方法，以減少顯著爲一個函數調用這樣的時候？

我感興趣的是是否有一種更有效的方式來執行上述計算而不完全重寫函數調用，或者是否只能通過分解函數並以某種方式將其重寫爲data.table來加速句法。

非常感謝您的回覆。

來源

2017-10-20 Timoji

我已經找到一種方法來獲得8倍的進一步加速，從而降低了時間縮短到我的機器上大約0.2秒。見下文。我們不是直接爲每個組計算總和（yyw）/ sum（w），而是花費時間，而是計算每個組的數量總和（yyw）和總和（w），並且僅在事後執行除法。魔法！

system.time({ 
    dt <- data.table(daf, key = c("aa","bb")) 
    dt[, w := 1][xx > 0, w := 2] 
    dt[, yyw := yy * w] 
    res <- dt[, .(maxy = max(yy), 
       meanx = mean(xx), 
       wm2num = sum(yyw), 
       wm2den = sum(w)), 
       by = c("aa","bb")] 
    res[, wm2 := wm2num/wm2den]    
    res[, V1 := wm2][maxy > 1, V1 := meanx] 

    res[, c("maxy", "meanx", "wm2num", "wm2den", "wm2") := NULL] 
}) # 0.19 

all.equal(res, dtInitial) 
# [1] TRUE

來源

2017-10-23 17:01:37 Timoji

您的結果：

system.time({ 
    dt = data.table(daf, key = c("aa","bb")) 
    dt = dt[,myfunc(xx, yy), by = c("aa","bb")] 
}) # 21.25 
dtInitial <- copy(dt)

V1：如果NA值不關心你，你可以修改你的函數是這樣的：

myfunc2 = function(xx, yy) { 
    if (max(yy) > 1) { 
    return(mean(xx)) 
    } else { 
    w <- ifelse(xx > 0, 2, 1) 
    return(sum((yy * w)[w != 0])/sum(w)) 
    } 
} 

system.time({ 
    dt = data.table(daf, key = c("aa","bb")) 
    dtM = dt[, myfunc2(xx, yy), by = c("aa","bb")] 
}) # 6.69 
all.equal(dtM, dtInitial) 
# [1] TRUE

V2：此外，你可以做得更快喜歡這個：

system.time({ 
dt3 <- data.table(daf, key = c("aa","bb")) 
dt3[, maxy := max(yy), by = c("aa","bb")] 
dt3[, meanx := mean(xx), by = c("aa","bb")] 
dt3[, w := ifelse(xx > 0, 2, 1)] 
dt3[, wm2 := sum((yy * w)[w != 0])/sum(w), by = c("aa","bb")] 
r2 <- dt3[, .(aa, bb, V1 = ifelse(maxy > 1, meanx, wm2))] 
r2 <- unique(r2) 
}) #2.09 
all.equal(r2, dtInitial) 
# [1] TRUE

20 VS瑞典克朗SEK 2我

更新：

還是有點快：

system.time({ 
    dt3 <- data.table(daf, key = c("aa","bb")) 
    dt3[, w := ifelse(xx > 0, 2, 1)] 
    dt3[, yyw := yy * w] 
    r2 <- dt3[, .(maxy = max(yy), 
       meanx = mean(xx), 
       wm2 = sum(yyw)/sum(w)), 
      , by = c("aa","bb")] 
    r2[, V1 := ifelse(maxy > 1, meanx, wm2)] 
    r2[, c("maxy", "meanx", "wm2") := NULL] 
}) # 1.51 

all.equal(r2, dtInitial) 
# [1] TRUE

來源

2017-10-20 11:29:59 minem

你會拿起多一點速度，如果你擺脫ifelse'的'（如'DT3 [，W：= 1] [XX> 0，W：= 2]'） – eddi

這是同樣值得注意的是，由於'data.table'優化工作的方式，'dt [，mean（a），by = b]'將比'mymean = function（x）mean（x） ; dt [，mymean（a），by = b]' – eddi

另一種解決方案

system.time({ 
    dat <- data.table(daf, key = c("aa","bb")) 
    dat[, xweight := (xx > 0) * 1 + 1] 
    result <- dat[, list(MaxY = max(yy), Mean1 = mean(xx), Mean2 = sum(yy*xweight)/sum(xweight)), keyby=c("aa", "bb")] 
    result[, FinalMean := ifelse(MaxY > 1, Mean1, Mean2)] 
}) 

    user system elapsed 
    1.964 0.059 1.348

來源

2017-10-20 23:50:43 Ben

加速查詢R data.table - 這個雙參數函數可以更迅速地按組應用嗎？

回答

相關問題