Apache Spark相關性僅在驅動程序上運行

我是Spark的新手，並瞭解到轉換髮生在工作人員和驅動程序上，但中間操作可能發生（如果操作是可交換和關聯的）並行性。Apache Spark相關性僅在驅動程序上運行

https://github.com/apache/spark/blob/master/mllib/src/main/scala/org/apache/spark/mllib/linalg/distributed/RowMatrix.scala

我怎麼能找一下相關的部分發生在司機和在什麼執行？

更新1：我說的運行關聯的設置是由多個虛擬機組成的集羣設置。在這裏尋找從火花網絡用戶界面圖片：Distributed cross correlation matrix computation

更新2

設置我的集羣中的獨立模式就像是一個3節點集羣，1個主站/驅動器（實機：工作站）和2個虛擬機從機/執行程序。從主節點提交作業這樣 ./bin/spark-submit --master spark://192.168.0.11:7077 examples/src/main/python/mllib/correlations_example.pŸ

我的相關樣本文件correlations_example.py：

data = sc.parallelize(np.array([range(10000000), range(10000000, 20000000),range(20000000, 30000000)]).transpose()) 
print(Statistics.corr(data, method="pearson")) 
sc.stop()

我總是得到一個連續的時間表爲：

這是不是意味着它不是基於事件的時間表並行發生？我是否在做與Spark中的作業提交或相關性計算有關的錯誤是不平行的？

更新3： 我試着甚至添加了另一個執行器，仍然是相同的順序treeAggreagate。我如下所述設置火花簇： http://paxcel.net/blog/how-to-setup-apache-spark-standalone-cluster-on-multiple-machine/

來源

2017-06-29 Roshan Mehta

我不明白你的更新。那麼現在的問題是什麼？ – eliasah

看看：https://stackoverflow.com/questions/42304059/distributed-cross-correlation-matrix-computation –

這是同樣的問題，你問了兩次？ – eliasah

您的聲明並不完全準確。驅動程序的容器[執行程序]在客戶端/邊緣節點或羣集上啓動，具體取決於火花提交模式，例如，客戶或紗線。這些行爲由工作人員執行，並將結果發回給驅動程序（例如收集）

已經回答了這個問題。請參閱下面的鏈接瞭解更多詳情 When does an action not run on the driver in Apache Spark?

來源

2017-06-29 14:15:36 user24225

更新了這個問題，我正在討論集羣，並看到這個https://stackoverflow.com/questions/42304059/distributed-cross-correlation-matrix-computation –

Apache Spark相關性僅在驅動程序上運行

回答

相關問題