考慮以下基準(Windows機器R上3.4.1):時差對象
library(rbenchmark)
mtx <- matrix(runif(1e8), ncol = 100)
df <- as.data.frame(mtx)
colnames(mtx) <- colnames(df) <- paste0("V", 1:100)
benchmark(
mtx[5000:7000, 80],
mtx[5000:7000, "V80"],
mtx[, "V80"][5000:7000],
mtx[, "V80", drop = FALSE][5000:7000, ],
mtx[5000:7000, , drop = FALSE][, "V80"],
#mtx$V80[5000:7000], # does not apply
replications = 5000
)
## test replications elapsed relative user.self sys.self user.child sys.child
## 4 mtx[, "V80", drop = FALSE][5000:7000, ] 5000 64.71 588.273 47.44 16.61 NA NA
## 3 mtx[, "V80"][5000:7000] 5000 72.15 655.909 52.90 18.18 NA NA
## 2 mtx[5000:7000, "V80"] 5000 0.11 1.000 0.11 0.00 NA NA
## 5 mtx[5000:7000, , drop = FALSE][, "V80"] 5000 7.47 67.909 5.89 1.47 NA NA
## 1 mtx[5000:7000, 80] 5000 0.13 1.182 0.12 0.00 NA NA
benchmark(
df[5000:7000, 80],
df[5000:7000, "V80"],
df[, "V80"][5000:7000],
df[, "V80", drop = FALSE][5000:7000, ],
df[5000:7000, , drop = FALSE][, "V80"],
df$V80[5000:7000],
replications = 5000
)
## test replications elapsed relative user.self sys.self user.child sys.child
## 6 df$V80[5000:7000] 5000 0.13 1.000 0.12 0.00 NA NA
## 4 df[, "V80", drop = FALSE][5000:7000, ] 5000 0.33 2.538 0.33 0.00 NA NA
## 3 df[, "V80"][5000:7000] 5000 0.17 1.308 0.17 0.00 NA NA
## 2 df[5000:7000, "V80"] 5000 0.15 1.154 0.16 0.00 NA NA
## 5 df[5000:7000, , drop = FALSE][, "V80"] 5000 13.63 104.846 12.91 0.39 NA NA
## 1 df[5000:7000, 80] 5000 0.19 1.462 0.17 0.00 NA NA
的時間差是相當驚人的。這是爲什麼?什麼是建議子集的方式,爲什麼?考慮到基準,矩陣的mtx[i, colname]
方式和df$colname[i]
(但它似乎沒有太大的差別)data.frame似乎是最省時間的,但是有什麼一般原因爲什麼我們應該更喜歡任何方法嗎?
並不總是推薦data.frame的$ -extraction。它僅用於交互式使用。您可以添加'df [[「V80」]]和'df [[80]]'提取方法。 –
只要使用哪一個是最快的爲您的特定矩陣/ data.frame(假設子設置的速度甚至是代碼的阻塞部分)。它通常更好的做一個子集操作'[]'而不是兩個[] []'。你有不同的選擇,所以你可以選擇哪一個更具可讀性或使你的代碼更易於理解。 – MrFlick