9

如何計算大型(> 10TB)數據集(可能採用分佈式方式)的皮爾森互相關矩陣?任何有效的分佈式算法建議將被讚賞。分佈式互相關矩陣計算

更新: 我看了阿帕奇火花MLIB相關

Pearson Computaation: 
/home/d066537/codespark/spark/mllib/src/main/scala/org/apache/spark/mllib/stat/correlation/Correlation.scala 
Covariance Computation: 
/home/d066537/codespark/spark/mllib/src/main/scala/org/apache/spark/mllib/linalg/distributed/RowMatrix.scala 

的實現,但對我來說,它看起來像所有的計算是在一個節點上發生的事情,它不是分佈在真正意義上的。

請在這裏放一些燈。我也嘗試了3點火花集羣上執行它,以下是截圖:

Entire Computation timeline One the task details

你可以從第二圖象數據是在一個節點拉高,然後計算正在做看看。我在這裏嗎?

回答

5

首先,看看this,看看事情是否正確。然後您可以參考這些實現中的任何一個:MPI/OpenMP:AgomezlMeismyles,MapReduce:VangjeeSeawolf42。在繼續之前,閱讀this也很有趣。另一方面,James's thesis提供了一些指標,如果您有興趣計算對異常值強大的相關性。

+0

謝謝你指點我的詹姆斯的論文。如果你也可以回答這個問題,那將是非常好的:http://stackoverflow.com/questions/42428424/how-to-calculate-mean-of-distributed-data –

+0

James論文談論Maronna和Quadrant協方差計算,但是我不能能夠理解這兩種算法,你知道這兩種算法的解釋。 –