移調一個data.table（列名 - >輸出的第一列）

什麼是traspose移調一個data.table（列名 - >輸出的第一列）

> dt <- data.table(x = c(1, 1, 3, 1, 3, 1, 1), y = c(1, 2, 1, 2, 2, 1, 1)) 
> dt 
    x y 
1: 1 1 
2: 1 2 
3: 3 1 
4: 1 2 
5: 3 2 
6: 1 1 
7: 1 1

到最有效的方法：

> output 
    cn v1 v2 v3 v4 v5 v6 v7 
1: x 1 1 3 1 3 1 1 
2: y 1 2 1 2 2 1 1

dcast.data.table應該是有效的，但我無法弄清楚它究竟是如何做

來源

2016-01-21 Amitai

如何data.table::transpose：

data.table(cn = names(dt), transpose(dt)) 
# cn V1 V2 V3 V4 V5 V6 V7 
#1: x 1 1 3 1 3 1 1 
#2: y 1 2 1 2 2 1 1

如果你真的關心效率，這可能會更好：

tdt <- transpose(dt)[, cn := names(dt)] 
setcolorder(tdt, c(ncol(tdt), 1:(ncol(tdt) - 1))) 
tdt 
# cn V1 V2 V3 V4 V5 V6 V7 
#1: x 1 1 3 1 3 1 1 
#2: y 1 2 1 2 2 1 1

transpose似乎有點快於t（它調用do_transpose），但不大幅上漲。我猜想這兩種實現大致接近非現場轉置算法的效率上限。

Dt <- data.table( 
    x = rep(c(1, 1, 3, 1, 3, 1, 1), 10e2), 
    y = rep(c(1, 2, 1, 2, 2, 1, 1), 10e2)) 

all.equal(data.table(t(Dt)), data.table(transpose(Dt))) 
#[1] TRUE 

microbenchmark::microbenchmark(
    "base::t" = data.table(t(Dt)), 
    "data.table::transpose" = data.table(transpose(Dt)) 
) 
#Unit: milliseconds 
#     expr  min  lq  mean median  uq  max neval 
#base::t    415.4200 434.5308 481.4373 458.1619 507.9556 747.2022 100 
#data.table::transpose 409.5624 425.8409 474.9709 444.5194 510.3750 685.0543 100

來源

2016-01-21 15:38:14 nrussell

不知道它與僅僅'data.table（cn = names（dt），t（dt））有什麼不同？ –

@David Arenburg好問題;它看起來像所有[真正的工作是在C完成]（https://github.com/Rdatatable/data.table/blob/d607425b44155916415485e263cd830828903ab2/src/transpose.c）。我把't'作爲基準並將其添加到我的答案中。 – nrussell

@DavidArenburg，和其他本地的data.table :: function一樣，我猜它是一樣高效的。這也是在還聲稱是什麼https://cran.r-project.org/web/packages/data.table/data.table.pdf 我有點尷尬的是這個問題實際上是多麼容易。我應該在data.table文檔的'轉置'上按Ctrl + F，而不是使用Google搜索。 – Amitai

移調一個data.table（列名 - >輸出的第一列）

回答

相關問題