0
如果我通過spark文本文件API加載csv
文件,我的RDD
分區了嗎? 如果是,數字是多少?有人可以在Apache Spark中解釋默認並行機制的含義。Spark默認分區數
如果我通過spark文本文件API加載csv
文件,我的RDD
分區了嗎? 如果是,數字是多少?有人可以在Apache Spark中解釋默認並行機制的含義。Spark默認分區數
Alberto Bonsanto的評論鏈接到一篇文章,描述瞭如何在Spark中進行分區。
要回答有關分區數量的問題,可以運行以下命令來查找RDD中分區的數量。
在蟒蛇:
rdd = sc.parallelize(xrange(1,10))
print rdd.getNumPartitions()
斯卡拉:
val rdd = sc.parallelize(1 to 100)
println(rdd.partitions.length)
如果你有一個數據幀,可以調用df.rdd
投回底層RDD。