2013-06-26 38 views
1

我有一個很大的數據框/ .csv是一個有42列和110,357,407的矩陣。它是從兩個點的數據集的x和y座標得出的,其中一個具有41,另一個具有110,357,407,並且行的值表示這兩組點之間的距離(列表1上的每個點到每個單點的距離在列表2上)。第一列是點數列表(從1到110,357,407)。矩陣摘錄如下。改變一個大的距離矩陣只有三列

V1  V2   V3   V4   V5   V6   V7 
1 38517.05 38717.8  38840.16 38961.37 39281.06 88551.03 88422.62 
2 38514.05 38714.79 38837.15 38958.34 39278  88545.48 88417.09 
3 38511.05 38711.79 38834.14 38955.3  39274.94 88539.92 88411.56 
4 38508.05 38708.78 38831.13 38952.27 39271.88 88534.37 88406.03 
5 38505.06 38705.78 38828.12 38949.24 39268.83 88528.82 88400.5 
6 38502.07 38702.78 38825.12 38946.21 39265.78 88523.27 88394.97 
7 38499.08 38699.78 38822.12 38943.18 39262.73 88517.72 88389.44 
8 38496.09 38696.79 38819.12 38940.15 39259.68 88512.17 88383.91 
9 38493.1  38693.8  38816.12 38937.13 39256.63 88506.62 88378.38 
10 38490.12 38690.8  38813.12 38934.11 39253.58 88501.07 88372.85 
11 38487.14 38687.81 38810.13 38931.09 39250.54 88495.52 88367.33 
12 38484.16 38684.83 38807.14 38928.07 39247.5  88489.98 88361.8 
13 38481.18 38681.84 38804.15 38925.06 39244.46 88484.43 88356.28 
14 38478.21 38678.86 38801.16 38922.04 39241.43 88478.88 88350.75 
15 38475.23 38675.88 38798.17 38919.03 39238.39 88473.34 88345.23 
16 38472.26 38672.9  38795.19 38916.03 39235.36 88467.8  88339.71 

我的問題是,我想改變這種矩陣逼到3列,第一列將類似於與110357407行矩陣的第一列,第二個將是41個數據點(每個第一個點與所有其他點的距離相匹配),第三個點將是這些點之間的距離。因此,這將是這個樣子

Back Pres Dist 
1   1  3486 
2   1  3456 
3   1  3483 
4   1  3456 
5   1  3429 
6   1  3438 
7   1  3422 
8   1  3427 
9   1  3428 

(背部和所有PRES的第一個值是完整的,PRES將變更爲2,並最終運作它一路攀升至41之間的距離後)

我知道這將輸出行的一個巨大的荒謬數,但是這是我需要運行某些處理是R.

以外

我嘗試使用這個代碼

cols.Output <- data.frame(col = rep(colnames(output3), each = nrow(output3)),   
      row = rep(rownames(output3), ncol(output3)), 
      value = as.vector(output3)) 
格式

但是每列不會有相同的行數,所以我收到一個錯誤(我認爲它不會真正適用於我的預設列需求)。我嘗試了一些rbind.fill和cbind.fill函數(plyr中的函數和其他人在論壇中提出的函數)。我還研究了一些融化和重塑,但我對這些功能非常困惑,並且無法弄清楚如何適當地實施它們(或者如果它們甚至適合我需要的)。我非常感謝這方面的幫助,因爲我一直在努力爭取很長時間。

編輯:只是爲了更清楚我需要什麼。取這兩個較小的數據集

背面< - 1個數據集5套X,Y點

PRES < - 1個數據集3套X,Y點

計算這兩個數據之間的距離幀生成初始矩陣:

Back  1   2   3   
1   3427  3444  3451  
2   3432  3486  3476  
3   3486  3479  3486  
4   3449  3438  3484  
5   3483  3486  3486  

而我的期望的輸出是這樣的:

Back  Pres  Dist 
1   1   3427 
2   1   3432  
3   1   3486  
4   1   3449  
5   1   3483  
1   2   3444  
2   2   3486  
3   2   3479  
4   2   3438  
5   2   3486  
1   3   3451  
2   3   3476  
3   3   3486 
4   3   3484 
5   3   3486  
+0

目前尚不清楚你想要做什麼。爲什麼不在較小的集合中顯示問題。例如說,你的維數爲3'mat < - matrix(1:9,ncol = 3,byrow = TRUE) v < - - (1:3)'這個例子的預期結果是什麼? – agstudy

回答

2

是的,看起來這是在reshape2包中的meltcast的某種組合通常解決的那種問題。也就是說,擁有1億多行的行,我不確定這是在這種情況下最有效的方法。

您可以手動完成所有操作,如下所示。我假設你的數據幀被稱爲df,距離在第2到第42列。看看它是否有效。

d <- unlist(df[-1]) # put all the distances into a vector 
newdf <- cbind(expand.grid(back=seq_len(nrow(df)), pres=seq_len(ncol(df) - 1)), d) 

這可能會死,除非你有大量的內存。儘管如此,任何簡單的解決方案都是一樣的,因爲距離向量中有大於42億個元素。您可以一次處理完整數據集的子集以解決此問題。

+0

終於完成了所有這些工作。基本上使用這個代碼,但創建了大量的子集,並最終使用data.table包中的rbindlist()將它們全部綁定在一起。花了一段時間,有點混亂,但我想這是大數據有時會發生的事情。 – Misc

1

下面介紹如何在一個小例子中使用melt

require(reshape2) 
a <- matrix(rnorm(9), nrow = 3) 
a[, 1] <- 1:3 ## Pretending these are one set of points 
rownames(a) <- a[, 1] ## We'll put them as rownames instead of a column 
melt(a[, -1]) ## And omit that column when melting 

如果你有記憶的問題,你可以寫一個for循環,做它切成小塊,他們完成了當每個寫入文件。

+0

這也可以,謝謝! – Misc