如何彙總大數據？

我有一個大的數據集的銷售數據是這樣的：如何彙總大數據？

Ordernumber  Category Sold_Items 
1 123    A   2 
2 123    B   1 
3 234    C   1 
4 345    D   1 
5 456    A   2 
6 456    B   1

而且我想它聚集到這一點：

A B C D  frequency 
    2 1    2 
      1   1 
       1  1

所以，基本上我想有一個排，每類別 - 我的銷售數據中存在的組合。我也想知道一種組合的頻繁程度。

嗯，我試了cast和melt他們讓我在那裏，但只有當數據集足夠小。不幸的是，我有超過300萬行數據，其中cast和melt無法處理。

任何人都可以告訴我如何快速彙總我的數據？

預先感謝您！

來源

2015-05-15 Sascha E

您可以試試

library(data.table)#v1.9.5+ 
dcast(setDT(df1), Ordernumber~Category, value.var='Sold_Items')[, 
     frequency:=do.call(pmax, c(.SD, na.rm=TRUE)), .SDcols=2:5]

來源

2015-05-15 07:53:08 akrun

如何彙總大數據？

回答

相關問題