我有一個EC2
設置爲r3.8xlarge (32 cores, 244G RAM)
。Spark:本地主控[*]比本地主控慢很多
在我Spark
的應用程序,我從S3
使用Spark-CSV
從DataBrick讀取兩個CSV文件,每個CSV有大約500萬行。我是unionAll
這兩個DataFrame,並在組合的DataFrame上運行dropDuplicates
。
但是,當我有,
val conf = new SparkConf()
.setMaster("local[32]")
.setAppName("Raw Ingestion On Apache Spark")
.set("spark.sql.shuffle.partitions", "32")
星火比.setMaster("local")
慢,那豈不是具有32個內核更快?