統計數據幀中出現的不相等的數字

我有一個有四列的數據幀df。我想找出每對行的不相等數字。統計數據幀中出現的不相等的數字

我試圖用for循環來完成它。但是，需要很長時間才能運行。請看下面我的代碼：

dist_mat <- matrix(0, nrow(df), nrow(df)) 
for(i in 1:nrow(df)) 
{ 
    for(j in 1:nrow(df)) 
    { 
    dist_mat[i,j] <- sum(df[,1:4][i,]!=df[,1:4][j,]) 
    } 
}

我認爲會有其他方式做這個快。任何建議表示讚賞。

P.S.數據是數字。

來源

2014-02-27 Chris

由於矩陣是對稱的，且對角將是零，你不需要循環兩次在每一行，所以你可以削減超過一半的循環下來：

for(i in 1:(nrow(df)-1)) 
{ 
    for(j in (i+1):nrow(df)) 
    { 
    dist_mat[i,j] <- sum(df[i,1:4]!=df[j,1:4]) 
    } 
} 

dist_mat[lower.tri(dist_mat)] <- dist_mat[upper.tri(dist.mat)]

來源

2014-02-27 15:52:05 James

謝謝你的回答。我曾考慮過這種方法。由於我執行的下一步，我需要生成整個矩陣。 – Chris

@Chris它確實產生了整個矩陣，但由於它是對稱的，所以你只需要做一半，然後複製它。 – James

這是一個工作爲combn：

DF <- data.frame(x=rep(1,6), y=rep(1:2,3)) 

combn(seq_len(nrow(DF)), 2, FUN=function(ind, df) { 
    c(ind[1], ind[2], sum(df[ind[1],]!=df[ind[2],])) 
}, df=as.matrix(DF))

注意，我轉換data.frame成一個矩陣，矩陣既然是子集比data.frame子集更快。根據您的數據類型，這可能會成爲一個問題。

如果你的距離測量不是那麼不尋常，dist將是有益的（和快速）。

來源

2014-02-27 16:01:06 Roland

謝謝你的回答。這是正確的，如果不是我的距離測量，dist會節省我的時間。對不起，如果我錯過了一些東西，但我不明白你的答案。我期待着一個包含成對距離的'6×6'矩陣。但是'df'產生的是一個'3×15'矩陣。你能解釋你的答案嗎？謝謝！ – Chris

你在上部（或下部對角線）有15個測量;這是第三列中的內容。 – Aaron

統計數據幀中出現的不相等的數字

回答

相關問題