從data.table和data.frame對象獲取單個元素的時間

在我的工作中，我使用了幾個表格（客戶詳細信息，交易記錄等）。其中一些非常大（數百萬行），我最近切換到data.table包（感謝馬修）。然而，其中一些非常小（幾百行和4/5列）並且被稱爲幾次。因此，我開始考慮[.data.table開銷檢索數據，而不是設置（）的價值，如已在?set中已清楚地描述的那樣，其中，無論表1的大小設置爲大約2微秒（取決於cpu）。從data.table和data.frame對象獲取單個元素的時間

但是，它似乎並不存在相當於set從data.table知道確切的行和列。一種loopable[.data.table。

library(data.table) 
library(microbenchmark) 

m = matrix(1,nrow=100000,ncol=100) 
DF = as.data.frame(m) 
DT = as.data.table(m) # same data used in ?set 

> microbenchmark(DF[3450,1] , DT[3450, V1], times=1000) # much more overhead in DT 

Unit: microseconds 
expr  min  lq median  uq  max neval 
DF[3450, 1] 32.745 36.166 40.5645 43.497 193.533 1000 
DT[3450, V1] 788.791 803.453 813.2270 832.287 5826.982 1000 

> microbenchmark(DF$V1[3450], DT[3450, 1, with=F], times=1000) # using atomic vector and 
                   # removing part of DT overhead 
Unit: microseconds            
expr  min  lq median  uq  max neval 
DF$V1[3450] 2.933 3.910 5.865 6.354 36.166 1000 
DT[3450, 1, with = F] 297.629 303.494 305.938 309.359 1878.632 1000 

> microbenchmark(DF$V1[3450], DT$V1[3450], times=1000) # using only atomic vectors 
Unit: microseconds 
     expr min lq median uq max neval 
DF$V1[3450] 2.933 2.933 3.421 3.422 40.565 1000 # DF seems still a bit faster (23%) 
DT$V1[3450] 3.910 3.911 4.399 4.399 16.128 1000

最後一種方法確實是最好的方法來快速檢索單個元素幾次。然而，set還要快

> microbenchmark(set(DT,1L,1L,5L), times=1000) 
Unit: microseconds 
       expr min lq median uq max neval 
set(DT, 1L, 1L, 5L) 1.955 1.956 2.444 2.444 24.926 1000

問題是：如果我們能在set微秒2.444的值應該是不可能的得到在一個較小的（或至少相似的）量的值時間？謝謝。

編輯：增加了兩個選項提示：

> microbenchmark(`[.data.frame`(DT,3450,1), DT[["V1"]][3450], times=1000) 
Unit: microseconds 
         expr min  lq median  uq  max neval 
`[.data.frame`(DT, 3450, 1) 46.428 47.895 48.383 48.872 2165.509 1000 
      DT[["V1"]][3450] 20.038 21.504 23.459 24.437 116.316 1000

不幸並不比以前的嘗試更快。

來源

2013-06-02 Michele

我同意你的問題，開銷可能/應該不是這麼多。儘管如此，DT'[[「V1」]] [3450]'？ – Arun

或者使用data.frame subsetting：''[.data.frame'（DT，3450,1）'（'''應該是反引號的。） – Roland

但是我對你覺得需要重複子集化有點懷疑。通常這意味着您可以通過更改算法進行優化。 – Roland

感謝@hadley我們有解決方案！

> microbenchmark(DT$V1[3450], set(DT,1L,1L,5L), .subset2(DT, "V1")[3450], times=1000, unit="us") 
Unit: microseconds 
        expr min lq median uq max neval 
       DT$V1[3450] 2.566 3.208 3.208 3.528 27.582 1000 
     set(DT, 1L, 1L, 5L) 1.604 1.925 1.925 2.246 15.074 1000 
.subset2(DT, "V1")[3450] 0.000 0.321 0.322 0.642 8.339 1000

來源

2013-06-09 14:36:06 Michele

從data.table和data.frame對象獲取單個元素的時間

回答

相關問題