2015-11-29 165 views
0

如果我通過spark文本文件API加載csv文件,我的RDD分區了嗎? 如果是,數字是多少?有人可以在Apache Spark中解釋默認並行機制的含義。Spark默認分區數

回答

0

Alberto Bonsanto的評論鏈接到一篇文章,描述瞭如何在Spark中進行分區。

要回答有關分區數量的問題,可以運行以下命令來查找RDD中分區的數量。

在蟒蛇:

rdd = sc.parallelize(xrange(1,10)) 
print rdd.getNumPartitions() 

斯卡拉:

val rdd = sc.parallelize(1 to 100) 
println(rdd.partitions.length) 

如果你有一個數據幀,可以調用df.rdd投回底層RDD。