9
如何計算大型(> 10TB)數據集(可能採用分佈式方式)的皮爾森互相關矩陣?任何有效的分佈式算法建議將被讚賞。分佈式互相關矩陣計算
更新: 我看了阿帕奇火花MLIB相關
Pearson Computaation:
/home/d066537/codespark/spark/mllib/src/main/scala/org/apache/spark/mllib/stat/correlation/Correlation.scala
Covariance Computation:
/home/d066537/codespark/spark/mllib/src/main/scala/org/apache/spark/mllib/linalg/distributed/RowMatrix.scala
的實現,但對我來說,它看起來像所有的計算是在一個節點上發生的事情,它不是分佈在真正意義上的。
請在這裏放一些燈。我也嘗試了3點火花集羣上執行它,以下是截圖:
你可以從第二圖象數據是在一個節點拉高,然後計算正在做看看。我在這裏嗎?
謝謝你指點我的詹姆斯的論文。如果你也可以回答這個問題,那將是非常好的:http://stackoverflow.com/questions/42428424/how-to-calculate-mean-of-distributed-data –
James論文談論Maronna和Quadrant協方差計算,但是我不能能夠理解這兩種算法,你知道這兩種算法的解釋。 –