2017-06-29 46 views
0

我是Spark的新手,並瞭解到轉換髮生在工作人員和驅動程序上,但中間操作可能發生(如果操作是可交換和關聯的)並行性。Apache Spark相關性僅在驅動程序上運行

我看着相關性和協方差代碼:https://github.com/apache/spark/blob/master/mllib/src/main/scala/org/apache/spark/mllib/stat/correlation/PearsonCorrelation.scala

https://github.com/apache/spark/blob/master/mllib/src/main/scala/org/apache/spark/mllib/linalg/distributed/RowMatrix.scala

我怎麼能找一下相關的部分發生在司機和在什麼執行?

更新1:我說的運行關聯的設置是由多個虛擬機組成的集羣設置。 在這裏尋找從火花網絡用戶界面圖片:Distributed cross correlation matrix computation

更新2

設置我的集羣中的獨立模式就像是一個3節點集羣,1個主站/驅動器(實機:工作站)和2個虛擬機從機/執行程序。 從主節點提交作業這樣 ./bin/spark-submit --master spark://192.168.0.11:7077 examples/src/main/python/mllib/correlations_example.pŸ

我的相關樣本文件correlations_example.py:

data = sc.parallelize(np.array([range(10000000), range(10000000, 20000000),range(20000000, 30000000)]).transpose()) 
print(Statistics.corr(data, method="pearson")) 
sc.stop() 

我總是得到一個連續的時間表爲:

enter image description here

這是不是意味着它不是基於事件的時間表並行發生?我是否在做與Spark中的作業提交或相關性計算有關的錯誤是不平行的?

更新3: 我試着甚至添加了另一個執行器,仍然是相同的順序treeAggreagate。 我如下所述設置火花簇: http://paxcel.net/blog/how-to-setup-apache-spark-standalone-cluster-on-multiple-machine/

+0

我不明白你的更新。那麼現在的問題是什麼? – eliasah

+0

看看:https://stackoverflow.com/questions/42304059/distributed-cross-correlation-matrix-computation –

+0

這是同樣的問題,你問了兩次? – eliasah

回答

0

您的聲明並不完全準確。驅動程序的容器[執行程序]在客戶端/邊緣節點或羣集上啓動,具體取決於火花提交模式,例如,客戶或紗線。這些行爲由工作人員執行,並將結果發回給驅動程序(例如收集)

已經回答了這個問題。請參閱下面的鏈接瞭解更多詳情 When does an action not run on the driver in Apache Spark?

+0

更新了這個問題,我正在討論集羣,並看到這個https://stackoverflow.com/questions/42304059/distributed-cross-correlation-matrix-computation –

相關問題