如何使用table()? 條目表,我有:使用table()來計算因子的頻率r
USER DATE ITEM
A 1 alpha
A 1 beta
A 1 gamma
A 2 alpha
A 2 gamma
A 4 beta
A 4 gamma
B 1 alpha
B 1 beta
...
如果用戶使用了該項目「阿爾法」在同一天的另一項目,哪些是其他項目和這些項目的哪些是目前最?
我需要爲此使用的數據幀非常龐大,擁有超過200萬條記錄(至少對我來說這是巨大的^^)。 我用了幾次table(),但仍然無法弄清楚如何使用它來滿足我的需求。
UPDATE: 輸出應該是這樣的:
amount_of_users combination
2 (alpha,beta)
1 (alpha,gamma)
1 (beta,gamma)
1 (alpha, beta, gamma)
我更新了主表,顯示什麼這裏的主要問題是: 如果用戶擁有的項目阿爾法,任何2-,3- - ,4項組合計數,他應該出現在,因爲他顯然與其他物品 - 但仍然在同一天。
更新: 由於迪文正確地表明,我不清楚我試圖達到什麼。 讓一個用戶擁有項目:alpha,beta,gamma。然後,這個用戶應該被添加到每個計數的任何子集,這意味着組合(alpha,beta)(beta,gamma)(alpha,gamma)和最後(alpha,beta,gamma)都會得到count +1。
與此同時,我認爲,對於我的主要目標(我想看看,什麼是最重要的ITEMS,被添加到特定的ITEM,例如alpha),我只能計算用戶的數量,使用table和colSums ,請找到我非常糟糕的解決方案,但註明項目,添加最多。
levels(x$TARGETGROUP)[c(8,15:17,39,41,57,58,61)] <- c("HOME")
levels(x$TARGETGROUP)
dings <- table(x[,1],x[,3])
str(dings)
#i saw, that the 8th column contains item I needed.
haeuf <- colSums(dings[dings[,8]!=0, ])
此外,該解決方案顯然是非常髒,但我仍然在學習[R的非常早期的階段,不需要(但)一個數字,真正告訴我的用戶數量,而只是告訴我某種傾向。
請發佈基於此輸入的預期輸出示例。 – A5C1D2H2I1M1N2O1R2T1
讓我改述一下:對於您提供的7行數據,預期的輸出是什麼? – A5C1D2H2I1M1N2O1R2T1
對不起,你是對的,仍然固定在日期。 – Mustafa