2016-11-20 31 views
1

擁有python-pandas知識和可擴展雲,在雲中實現並行計算的最佳方式是什麼? (我只有一臺機器,CPU很多,機器也不多)使用python進行雲中的並行處理

我現在擁有的雲端服務器是亞馬遜雲服務器,具有windows服務器(最多可擴展到40個CPU和160GB內存),但我可以評估使用不同的雲提供商和不同的操作系統

我認爲2種可能性:

  • 使用python標準多處理模塊(沒有任何其他SW)
  • 獨立火花用蟒接口

火花應該比蟒多處理更有效率?還有其他方法可以評估? 「

回答

1

」要使用啓動腳本啓動Spark獨立羣集,您應該在Spark目錄中創建一個名爲conf/slaves的文件,該文件必須包含您打算啓動Spark worker的所有機器的主機名,每行一個「。

在這裏看到: http://spark.apache.org/docs/latest/spark-standalone.html#cluster-launch-scripts

好運

+0

確定THX但我想用只有一臺機器40個或更多的CPU,在雲中。用這種方式真的需要spark,或者我只能使用python內置的多處理模塊? – DPColombotto

+1

在這種情況下,我認爲你不應該使用Spark或任何分佈式工具。 我的確會建議你在Python中使用多處理。這樣,你將獲得大量的CPU。 –

+0

查看https://docs.python.org/2/library/multiprocessing.html –