我對Spark很新，我開發的代碼不像我期待的那樣快。我開始火花背景下通過以下方式Spark中的並行處理

初始化星火環境

spark_path = "C:\spark" 
os.environ['SPARK_HOME'] = spark_path 
os.environ['HADOOP_HOME'] = spark_path 

sys.path.append(spark_path + "/bin") 
sys.path.append(spark_path + "/python") 
sys.path.append(spark_path + "/python/pyspark/") 
sys.path.append(spark_path + "/python/lib") 
sys.path.append(spark_path + "/python/lib/pyspark.zip") 
sys.path.append(spark_path + "/python/lib/py4j-0.10.4-src.zip") 

from pyspark import SparkContext 
from pyspark import SparkConf 

sc = SparkContext("local", "test")

現在我決定檢查並行度，這是acheiving和使用

sc.defaultParallelism 
>>> 1

我的問題是三折

我難道沒有平行嗎？
如果不是，那我該怎麼辦？
我需要把我的工作具體設置，我已被告知。設置爲--conf spark.driver.maxResultSize=0 --conf spark.akka.frameSize=128。我該如何去設置這個

我在Windows服務器上工作4個核心和30GB的RAM創建上下文時

來源

2017-05-01 Rajarshi Bhadra

[火花的可能的複製-submit：「--master local \ [n \]」和「--master local --executor-cores m」之間的區別]（http://stackoverflow.com/questions/39939076/spark-submit-difference-between -master-localn和 - 主本地-EXEC） – zero323

，儘量sc = SparkContext("local[*]", "test")利用所有可用的核心

來源

2017-09-22 14:40:26 reflog

Spark中的並行處理

初始化星火環境

回答

相關問題