按列名data.table操作

假設我有一個data.table按列名data.table操作

a <- data.table(id=c(1,1,2,2,3),a=21:25,b=11:15,key="id")

我可以添加新的列是這樣的：

a[, sa := sum(a), by="id"] 
a[, sb := sum(b), by="id"] 
> a 
    id a b sa sb 
1: 1 21 11 43 23 
2: 1 22 12 43 23 
3: 2 23 13 47 27 
4: 2 24 14 47 27 
5: 3 25 15 25 15

然而，假設我有列名代替：

for (n in c("a","b")) { 
    s <- paste0("s",n) 
    a[, s := sum(n), by="id", with=FALSE] # ERROR: invalid 'type' (character) of argument 
}

我該怎麼辦？

來源

2014-01-09 sds

可能相關：http：///stackoverflow.com/q/16617226/324364 – joran

和老一點：http://stackoverflow.com/a/12392269/1412059 – Roland

...和1.6從data.table常見問題。 – joran

你也可以這樣做：

a <- data.table(id=c(1,1,2,2,3),a=21:25,b=11:15,key="id") 

a[, c("sa", "sb") := lapply(.SD, sum), by = id]

或稍多一般：

cols.to.sum = c("a", "b") 
a[, paste0("s", cols.to.sum) := lapply(.SD, sum), by = id, .SDcols = cols.to.sum]

來源

2014-01-09 16:25:42 eddi

+1更好，因爲它在單個分組中完成，而不是逐個添加每個列的分組。在這種情況下使用'.SD'不應該咬，因爲'.SD'裏面的所有數據都被使用了。 –

@MattDowle作爲旁白 - 使用'.SD'的主要原因是當涉及'[.data.table'時，因爲該函數的開銷很大，所以'.SD [1：.N]'在「by」循環中慢了幾個數量級，即.SD' – eddi

噢，是的，謝謝提醒。它在名單上以優化。 –

在? data.table看看with：

dt <- data.table(id=1:5,a=21:25,b=11:15,key="id") 
dt[, n3 := dt[ , n1, with = FALSE ] * dt[ , n2, with = FALSE ], with = FALSE ]

編輯：

，或者你只是改變colnames來回：

dt <- data.table(id=1:5,a=21:25,b=11:15,key="id") 
dt[ , dt.names["n3"] := 1L, with = FALSE ] 

dt.names <- c(n1 = "a", n2 = "b", n3 = "c") 
setnames(dt, dt.names, names(dt.names)) 

dt[ , n3 := n1 * n2, by = "id" ] 
setnames(dt, names(dt.names), dt.names)

它與一起工作。

來源

2014-01-09 15:30:44 Beasterfield

這似乎不適用'by'。 – sds

列重命名技巧很好，謝謝！ – sds

這是類似的：

How to generate a linear combination of variables and update table using data.table in a loop call?

，但要將此與by=結合起來了，所以set()不夠靈活。這是一個故意的設計設計，在這方面不太可能改變。

我有時在回答結束時使用EVAL助手。
https://stackoverflow.com/a/20808573/403310
有些人在那種方式下，但我只是想像它構建一個動態的SQL語句，這是很常見的做法。 EVAL的方法提供了極大的靈活性，無需搔頭eval()和quote()。要查看已構建的動態查詢（要檢查它），可以在EVAL幫助程序函數內添加print。

但是，在這個簡單的例子，你可以用的:=的LHS和括號來告訴data.table查找值（清楚不過with=FALSE）和RHS需要get()。

for (n in c("a","b")) { 
    s <- paste0("s",n) 
    a[, (s) := sum(get(n)), by="id"] 
}

來源

2014-01-09 16:04:35

我不需要's'附近的人，是嗎？ – sds

是的，否則它會在循環的兩次迭代中創建一個名爲'「s」'的列。 –

對不起 - 我錯過了'with = FALSE'。我們已經走向'（LHS）：='，因爲這樣更容易閱讀。 'with = FALSE'不清楚它是指LHS還是'：='的RHS。 –

這裏是一個辦法，做呼叫重整並避免與.SD

任何開銷

# a helper function 
makeCall <- function(x,fun) bquote(.(fun)(.(x))) 
# the columns you wish to sum (apply function to) 
cols <- c('a','b') 
new.cols <- paste0('s',cols) 
# create named list of names 
name.cols <- setNames(sapply(cols,as.name), new.cols) 
# create the call 
my_call <- as.call(c(as.name(':='), lapply(name.cols, makeCall, fun = as.name('sum')))) 
(a[, eval(my_call), by = 'id']) 

# id a b sa sb 
# 1: 1 21 11 43 23 
# 2: 1 22 12 43 23 
# 3: 2 23 13 47 27 
# 4: 2 24 14 47 27 
# 5: 3 25 15 25 15

來源

2014-01-09 23:30:32 mnel

按列名data.table操作

回答

相關問題