2016-08-11 133 views
1

我想計算一個數據矩陣和一組中心的歐幾里得距離。計算與質心的距離

我使用此功能:

Euclid <- function(df, centers) { 
    distanceMatrix <- matrix(NA, nrow=dim(df)[1], ncol=dim(centers)[1]) 
    for(i in 1:nrow(centers)) { 
    distanceMatrix[,i] <- sqrt(rowSums(t(t(df)-centers[i,])^2)) 
    } 
    distanceMatrix 
} 

df與點作爲行和尺寸列中的數據矩陣。它有840點和11個維度。

head(df) 

    v1  v2 v3  v4  v5  v6  v7  v8  v9  v10 v11 
1 -0.81 0.24 -0.36 -0.68 -0.51 -0.26 -0.82 0.53 0.19 0.17 0.92 
2 1.23 0.24 0.11 0.65 0.67 0.56 0.43 -0.19 -0.31 0.55 0.45 
3 -0.81 -0.59 -0.36 -0.35 0.28 0.15 0.02 -0.19 0.68 0.17 -0.02 

centers是具有12行和11維的中心矩陣。

head(centers) 

    v1  v2 v3  v4  v5  v6  v7  v8  v9  v10 v11 
1 0.29 0.09 0.19 0.02 -0.07 0.13 -0.01 0.09 0.02 0.15 0.09 
2 0.04 0.03 0.10 0.01 0.01 0.01 0.03 0.01 0.31 0.04 0.45 
3 0.07 0.02 -0.02 -0.02 0.48 0.36 -0.66 -0.09 0.21 -0.03 -0.78 

然而,應用Euclid功能導致以下錯誤:

distsToCenters <- Euclid(df, centers) 
    Error in distanceMatrix[, i] <- sqrt(rowSums(t(t(df) - centers[i, : 
    number of items to replace is not a multiple of replacement length 

我曾與很多小的尺寸想這對矩陣和它一直很好。但是,它似乎沒有處理我當前的一組數據和中心矩陣。

有人能讓我知道我做錯了什麼嗎?提前謝謝了。

回答

0

data.frames適合處理數據。但與matrix類相比,工作方式不同。你在這裏得到的是一個有點違反直覺的令人討厭的bug。嘗試通過

sqrt(rowSums(t(t(as.matrix(df))-as.matrix(centers)[i,])^2)) 
# or at the start 
df <- as.matrix(df); centers <- as.matrix(centers) 

更換sqrt(rowSums(t(t(df)-centers[i,])^2))工作的示例:

Euclid <- function(df, centers) { 
    distanceMatrix <- matrix(NA, nrow = nrow(df), ncol = nrow(centers)) 
    df <- as.matrix(df) 
    centers <- as.matrix(centers) 
    for(i in 1:nrow(centers)) { 
    distanceMatrix[, i] <- sqrt(colSums((t(df) - centers[i, ])^2)) 
    } 
    return(distanceMatrix) 
} 

tmp1 <- data.frame(x=rnorm(5), y = rnorm(5)) 
tmp2 <- data.frame(x=rnorm(2), y = rnorm(2)) 

tmp1 
tmp2 
Euclid(tmp1, tmp2)