2015-05-15 180 views
0

我有一個大的數據集的銷售數據是這樣的:如何彙總大數據?

Ordernumber  Category Sold_Items 
1 123    A   2 
2 123    B   1 
3 234    C   1 
4 345    D   1 
5 456    A   2 
6 456    B   1 

而且我想它聚集到這一點:

A B C D  frequency 
    2 1    2 
      1   1 
       1  1 

所以,基本上我想有一個排,每類別 - 我的銷售數據中存在的組合。我也想知道一種組合的頻繁程度。

嗯,我試了castmelt他們讓我在那裏,但只有當數據集足夠小。不幸的是,我有超過300萬行數據,其中castmelt無法處理。

任何人都可以告訴我如何快速彙總我的數據?

預先感謝您!

回答

2

您可以試試

library(data.table)#v1.9.5+ 
dcast(setDT(df1), Ordernumber~Category, value.var='Sold_Items')[, 
     frequency:=do.call(pmax, c(.SD, na.rm=TRUE)), .SDcols=2:5]