1
擁有python-pandas知識和可擴展雲,在雲中實現並行計算的最佳方式是什麼? (我只有一臺機器,CPU很多,機器也不多)使用python進行雲中的並行處理
我現在擁有的雲端服務器是亞馬遜雲服務器,具有windows服務器(最多可擴展到40個CPU和160GB內存),但我可以評估使用不同的雲提供商和不同的操作系統
我認爲2種可能性:
- 使用python標準多處理模塊(沒有任何其他SW)
- 獨立火花用蟒接口
火花應該比蟒多處理更有效率?還有其他方法可以評估? 「
確定THX但我想用只有一臺機器40個或更多的CPU,在雲中。用這種方式真的需要spark,或者我只能使用python內置的多處理模塊? – DPColombotto
在這種情況下,我認爲你不應該使用Spark或任何分佈式工具。 我的確會建議你在Python中使用多處理。這樣,你將獲得大量的CPU。 –
查看https://docs.python.org/2/library/multiprocessing.html –