分佈式互相關矩陣計算

如何計算大型（> 10TB）數據集（可能採用分佈式方式）的皮爾森互相關矩陣？任何有效的分佈式算法建議將被讚賞。分佈式互相關矩陣計算

更新：我看了阿帕奇火花MLIB相關

Pearson Computaation: 
/home/d066537/codespark/spark/mllib/src/main/scala/org/apache/spark/mllib/stat/correlation/Correlation.scala 
Covariance Computation: 
/home/d066537/codespark/spark/mllib/src/main/scala/org/apache/spark/mllib/linalg/distributed/RowMatrix.scala

的實現，但對我來說，它看起來像所有的計算是在一個節點上發生的事情，它不是分佈在真正意義上的。

請在這裏放一些燈。我也嘗試了3點火花集羣上執行它，以下是截圖：

你可以從第二圖象數據是在一個節點拉高，然後計算正在做看看。我在這裏嗎？

來源

2017-02-17 Roshan Mehta

首先，看看this，看看事情是否正確。然後您可以參考這些實現中的任何一個：MPI/OpenMP：Agomezl或Meismyles，MapReduce：Vangjee或Seawolf42。在繼續之前，閱讀this也很有趣。另一方面，James's thesis提供了一些指標，如果您有興趣計算對異常值強大的相關性。

來源

2017-02-23 01:02:29 dangiankit

謝謝你指點我的詹姆斯的論文。如果你也可以回答這個問題，那將是非常好的：http://stackoverflow.com/questions/42428424/how-to-calculate-mean-of-distributed-data –

James論文談論Maronna和Quadrant協方差計算，但是我不能能夠理解這兩種算法，你知道這兩種算法的解釋。 –

分佈式互相關矩陣計算

回答

相關問題