我有一個像下面的數據框(20,000行49列)。每行具有唯一的名稱(ID),每個ID在3列中有3個重複讀數(例如D15C D15C.1 D15C.2)。名稱的前4個字母(「D15C」)是組名。我需要通過組名來平均列(例如平均D15C,D15C.1和D15.2以獲得D15C),因此最終表將從49列合併爲16列。R行意味着在多個列按組(或唯一ID)
ID D04C D04C.1 D08H D08H.1 D08H.2 D15C D15C.1 D15C.2 D15L D15L.1 D15L.2
1 1367452_at 11.11 10.93 11.85 10.94 10.87 10.73 10.62 10.85 10.73 10.77 10.52
2 1367453_at 9.65 9.94 9.78 9.68 9.67 9.86 9.71 9.82 9.74 9.71 9.76
3 1367454_at 10.19 10.36 9.68 10.07 10.08 10.35 10.26 10.32 10.27 10.19 10.47
(… 20000 rows)
我調換,爲了使用聚合它編輯成下面的數據幀:
ID 1367452_at 1367453_at 1367454_at ... ...
1 D04C 11.11 9.65 10.19
2 D04C 10.93 9.94 10.36
3 D08H 11.85 9.78 9.68
4 D08H 10.94 9.68 10.07
5 D08H 10.87 9.67 10.08
6 D15C 10.73 9.86 10.35
7 D15C 10.62 9.71 10.26
8 D15C 10.85 9.82 10.32
9 D15L 10.73 9.74 10.27
10 D15L 10.77 9.71 10.19
11 D15L 10.52 9.76 10.47
但是,下面的骨料(「AGG」是該數據幀的名字)了370秒完成。問題是,我有這樣的排期表中的100的......
agg <- aggregate(x = agg[, 2:ncol(agg)], by = list(ID = agg$ID), FUN = "mean", na.rm = T)
所以我把它轉換成一個data.table和運行一個數據表的方法。
dt <- as.data.table(agg)
setkey(dt, ID)
dt2 <- dt[,lapply(list(dt[2:ncol(dt)]),mean),by = ID]
,但得到了幾分鐘後,一條錯誤消息:
Error: cannot allocate vector of size 144 Kb
In addition: Warning messages:
1: Reached total allocation of 1535Mb: see help(memory.size)
2: Reached total allocation of 1535Mb: see help(memory.size)
不知道什麼是錯的。無法使用dt [1:5,1:5]查看dt的「head」部分,並且head(dt)返回了太多穿過屋頂的線,我也看不到「head」。不知道現在該做什麼。
我可以在一列中列出ID(如在data.frame中)或轉置表並在第一行中列出ID(如在data.table中)。無論哪種方式,有沒有更快的方式來聚合數據?非常感謝!
第一個問題誒?歡迎。你真的認爲'data.table'包中的data.table?如果你嘗試過'轉置'和'聚合',那麼最好提供你嘗試的確切命令,以便人們可以提供幫助。不明白'Data.table method'是什麼意思。在某處可能會提出一些關於Stack Overflow的問題的指導方針(但我不能很快)。試試R聊天室尋求建議。 –
對不起,不清楚。我編輯它以提供更多細節。希望現在更容易理解。 – user1444754
好多了,謝謝。這使得它很快回答。 –