2012-12-02 145 views
0

我有一個很大的輸入矩陣(4000x10000)。我使用dist()來計算它的歐幾里德距離矩陣(大約需要5個小時)。
我需要爲另一行(對於4001x10000矩陣)計算「相同」矩陣的距離矩陣。在不重新計算整個矩陣的情況下確定距離矩陣的最快方法是什麼?重新計算距離矩陣

+1

你知道如何做,但不是在R或你不知道該怎麼做嗎? – carlosdc

+1

額外的行是額外的點還是額外的變量/維度? – flodel

回答

1

我假設你的額外的行意味着一個額外的點。如果它意味着一個額外的變量/維度,它會要求一個不同的答案。

首先,對於矩陣的歐氏距離,我建議使用fields包中的rdist函數。它是用Fortran編寫的,比dist函數快很多。它返回一個matrix而不是dist對象,但您可以始終使用as.matrixas.dist從一個到另一個。

這裏是(比你小)樣本數據

num.points <- 400 
num.vars <- 1000 
original.points <- matrix(runif(num.points * num.vars), 
          nrow = num.points, ncol = num.vars) 

你已經計算出的距離矩陣:

d0 <- rdist(original.points) 

的額外點(S),你只需要計算距離額外點之間以及額外點與原始點之間的距離。我將使用兩個加分證明的解決方案是由一般到任意數量的加分:

extra.points <- matrix(runif(2 * num.vars), nrow = 2) 
inner.dist <- rdist(extra.points) 
outer.dist <- rdist(extra.points, original.points) 

這樣你就可以將它們綁定到你的更大的距離矩陣:

d1 <- rbind(cbind(d0, t(outer.dist)), 
      cbind(outer.dist, inner.dist)) 

讓我們來看看它匹配什麼一個完整的,長期rerun會產生:

d2 <- rdist(rbind(original.points, extra.points)) 

identical(d1, d2) 
# [1] TRUE 
+0

我試過用: mydist <-dist(original.points) mydist < - as.matrix(mydist) euc.dist <-function(x){ sqrt(sum((extra.point - x)^ 2)) } extra.dist <-apply(original.points,1,euc.dist) rbind(mydist,extra.dist) 我的問題是將多餘的行綁定到類「dist」 – sztup

+0

距離矩陣是一個方形矩陣。您最後只需添加一行,您還應該在末尾添加一列,並且右下角的值應爲零(額外點與其自身之間的距離)。但請閱讀我的解決方案... – flodel