在R或MySQL中創建交叉表

我有一個user_id - category對的表。用戶可以分爲多個類別。我試圖爲每個可能的結果計算交叉類別。在R或MySQL中創建交叉表

example results

我想結果是這個樣子，顯示計數橫：即誰是A類，也C類用戶等

我的原始數據的結構是這樣的數類別：

example results

怎麼能在這個R或MySQL的實現呢？數據非常大。

這裏的是樣本數據：

data <- structure(list(category = structure(c(1L, 2L, 2L, 1L, 3L, 3L, 
2L, 1L, 3L, 2L, 2L, 2L, 3L, 1L, 1L, 3L), .Label = c("A", "B", 
"C"), class = "factor"), user_id = c(464L, 345L, 342L, 312L, 
345L, 234L, 423L, 464L, 756L, 756L, 345L, 345L, 464L, 345L, 234L, 
312L)), .Names = c("category", "user_id"), class = "data.frame", row.names = c(NA, 
-16L))

任何代碼段上的方法，函數，或包建議的想法，將不勝感激。謝謝！ -John

來源

2015-06-08 Super_John

您能給出樣本數據的預期輸出嗎？我假設它不是第二個數字，因爲它甚至不是對稱的。 – josliber

Hi @josiber，你是對的 - 第二個數字只是結果的一個例子。我無法弄清楚如何得到任何結果，直到找到解決這個問題的辦法。雖然這個功能只是用戶數量。希望有所幫助。 –

既然你已經發布了一個16行的例子，我想你可以手工計算它。請這樣做，併發布預期的輸出結果，因爲在這樣做之前，您沒有可重複的示例。 – josliber

在R，I將由用戶通過首先分裂處理這個數據，計算類別該用戶的所有唯一對，然後分組在一起：

data$category <- as.character(data$category) 
(combos <- do.call(rbind, tapply(data$category, data$user_id, function(x) { 
    u <- unique(x) 
    if (length(u) > 1) t(combn(u, 2)) 
    else NULL 
}))) 
#  [,1] [,2] 
# [1,] "C" "A" 
# [2,] "A" "C" 
# [3,] "B" "C" 
# [4,] "B" "A" 
# [5,] "C" "A" 
# [6,] "A" "C" 
# [7,] "C" "B"

的最後一步是製表的對，它可以在河的table函數來完成，我們將實際使用table兩次（A，b）和（b，a）爲一類每個配對和b捕捉：基於

table(combos[,1], combos[,2]) + table(combos[,2], combos[,1]) 
#  A B C 
# A 0 1 4 
# B 1 0 2 
# C 4 2 0

來源

2015-06-08 01:39:03 josliber

對不起，延遲迴復 - 我試過了一個樣本數據集，它效果很好。我不得不使用SQL解決方案，因爲我被300M記錄卡住了。我沒有意識到最終的數據集會很大！我不知道如何使用與R一樣大的數據。無論如何，謝謝，謝謝，謝謝。 –

在MySQL中，你可以很容易地在一個三欄格式做到這一點：

select a.category, b.category, count(*) 
from pairs a join 
    pairs b 
    on a.user_id = b.user_id 
group by a.category, b.category;

生產表作爲基質在SQL挑戰，除非你知道所有的列名。否則，你需要一個動態數據透視表（谷歌：「動態數據透視表」）。對於數據庫中的大多數用途，三列格式是優選的。

來源

2015-06-08 01:32:44

我提供的樣本數據其實並不是t hink @josilber提供的R解決方案是正確的，但由於缺乏所需的示例解決方案，我可能會錯誤。我認爲你可以用igraph及其數據的雙向網絡表示來做到這一點，但是這對於更大的數據/類別集可能是低效的。作爲替代使用的數據的稀疏矩陣表示中的R相對有效的計算可以做這樣的：

library('Matrix') 
mat <- spMatrix(nrow=length(unique(data$category)), 
    ncol=length(unique(data$user_id)), 
    i = as.numeric(factor(data$category)), 
    j = as.numeric(factor(data$user_id)), 
    x = rep(1, length(as.numeric(data$category))) 
) 
rownames(mat) <- levels(factor(data$category)) 
colnames(mat) <- levels(factor(data$user_id)) 
mat 

#mat_row <- mat %*% t(mat) 

## Based on @user20650's comment this is even more efficient than 
## the multiplication above: 
mat_row <- tcrossprod(mat)

此我認爲產生以下正確的輸出基於上述採樣數據：

> mat_row 
3 x 3 sparse Matrix of class "dgCMatrix" 
    A B C 
A 7 3 5 
B 3 12 4 
C 5 4 5

來源

2015-06-08 02:24:54

另一個alt ...'tcrossprod（table（dat））' – user20650

肯定！但是如果你有很多用戶/類別（比如數百萬），你可能會在稀疏矩陣表示之前遇到內存問題。但是對於這種方法，在更可管理的數據大小上肯定是+1！ –

也像josibers解決方案（除了對角線）'tcrossprod（!! table（dat））' – user20650

您可以使用dplyr創建所有唯一對的列表，並使用crossprod來統計一對類別共有的用戶數量。

> library(dplyr) 
> data <- data %>% group_by(user_id, category) %>% summarize(records = sign(n())) 
> crossprod(table(data$user_id, data$category)) 

    A B C 
    A 4 1 4 
    B 1 4 2 
    C 4 2 5

來源

2015-06-08 04:33:53

在R或MySQL中創建交叉表

回答

相關問題