0
我對Spark很新,我開發的代碼不像我期待的那樣快。我開始火花背景下通過以下方式Spark中的並行處理
初始化星火環境
spark_path = "C:\spark"
os.environ['SPARK_HOME'] = spark_path
os.environ['HADOOP_HOME'] = spark_path
sys.path.append(spark_path + "/bin")
sys.path.append(spark_path + "/python")
sys.path.append(spark_path + "/python/pyspark/")
sys.path.append(spark_path + "/python/lib")
sys.path.append(spark_path + "/python/lib/pyspark.zip")
sys.path.append(spark_path + "/python/lib/py4j-0.10.4-src.zip")
from pyspark import SparkContext
from pyspark import SparkConf
sc = SparkContext("local", "test")
現在我決定檢查並行度,這是acheiving和使用
sc.defaultParallelism
>>> 1
我的問題是三折
- 我難道沒有平行嗎?
- 如果不是,那我該怎麼辦?
- 我需要把我的工作具體設置,我已被告知。設置爲
--conf spark.driver.maxResultSize=0 --conf spark.akka.frameSize=128
。我該如何去設置這個
我在Windows服務器上工作4個核心和30GB的RAM創建上下文時
[火花的可能的複製-submit:「--master local \ [n \]」和「--master local --executor-cores m」之間的區別](http://stackoverflow.com/questions/39939076/spark-submit-difference-between -master-localn和 - 主本地-EXEC) – zero323