11
因此,假設我得到了一個3000行的rdd。 2000年的第一行是第一類,最後的1000行是第二類。 RDD跨100個分區進行分區。Sparks RDD.randomSplit如何實際拆分RDD
當調用RDD.randomSplit(0.8,0.2)
是否函數還洗牌RDD?我們的分裂只是簡單地抽樣了20%的RDD?或者它是否隨機選擇20%的分區?
理想情況下,產生的拆分與原始RDD具有相同的類分佈。 (即2:1)
由於