我是Spark的新手,並瞭解到轉換髮生在工作人員和驅動程序上,但中間操作可能發生(如果操作是可交換和關聯的)並行性。Apache Spark相關性僅在驅動程序上運行
我怎麼能找一下相關的部分發生在司機和在什麼執行?
更新1:我說的運行關聯的設置是由多個虛擬機組成的集羣設置。 在這裏尋找從火花網絡用戶界面圖片:Distributed cross correlation matrix computation
更新2
設置我的集羣中的獨立模式就像是一個3節點集羣,1個主站/驅動器(實機:工作站)和2個虛擬機從機/執行程序。 從主節點提交作業這樣 ./bin/spark-submit --master spark://192.168.0.11:7077 examples/src/main/python/mllib/correlations_example.p
Ÿ
我的相關樣本文件correlations_example.py:
data = sc.parallelize(np.array([range(10000000), range(10000000, 20000000),range(20000000, 30000000)]).transpose())
print(Statistics.corr(data, method="pearson"))
sc.stop()
我總是得到一個連續的時間表爲:
這是不是意味着它不是基於事件的時間表並行發生?我是否在做與Spark中的作業提交或相關性計算有關的錯誤是不平行的?
更新3: 我試着甚至添加了另一個執行器,仍然是相同的順序treeAggreagate。 我如下所述設置火花簇: http://paxcel.net/blog/how-to-setup-apache-spark-standalone-cluster-on-multiple-machine/
我不明白你的更新。那麼現在的問題是什麼? – eliasah
看看:https://stackoverflow.com/questions/42304059/distributed-cross-correlation-matrix-computation –
這是同樣的問題,你問了兩次? – eliasah