0
我有一個可怕的時間運行'ddply'在兩個變量看起來應該是一個簡單的命令。ddply緩慢,當用日期聚合因子變量
的樣本數據(DF):
Brand Day Rev RVP
A 1 2535.00 195.00
B 1 1785.45 43.55
C 1 1730.87 32.66
A 2 920.00 230.00
B 2 248.22 48.99
C 3 16466.00 189.00
A 1 2535.00 195.00
B 3 1785.45 43.55
C 3 1730.87 32.66
A 4 920.00 230.00
B 5 248.22 48.99
C 4 16466.00 189.00
我使用命令:
df2<-ddply(df, .(Brand, Day), summarize, Rev=mean(Rev), RVP=sum(RVP))
我的數據幀有大約2600觀察,並有45個級別的 「品牌」 和最多300 「日」級別(使用'difftime'編碼)。
當我簡單地按「日」分組時,我可以很容易地使用'ddply',但是當我嘗試按「品牌」分組時,我的電腦凍結了。
想法?
ddply只是很慢,尤其是當有很多小團體。改爲使用'by'來嘗試data.table。 – frankc
有沒有任何教程可以讓我指點? – roody
我們最終將指引您參閱Google的相同教程。 – joran