如何在火花中將rdd數據分成兩部分？

我在Spark RDD中有一個數據，我想將它分成兩部分，比如0.7。例如，如果RDD看起來是這樣的：如何在火花中將rdd數據分成兩部分？

[1,2,3,4,5,6,7,8,9,10]

我想把它分成rdd1：

[1,2,3,4,5,6,7]

和rdd2：

[8,9,10]

隨着規模0.7。 rdd1和rdd2應該每次都是隨機的。我想是這樣的：

seed = random.randint(0,10000) 
rdd1 = data.sample(False,scale,seed) 
rdd2 = data.subtract(rdd1)

和它的作品，但有時當我的數據中包含dict我遇到了一些問題。例如用數據如下：

[{1:2},{3:1},{5:4,2;6}]

我得到

TypeError: unhashable type: 'dict'

來源

2014-11-15 user3077020

RDDs兩者

rdd = sc.parallelize(range(10)) 
test, train = rdd.randomSplit(weights=[0.3, 0.7], seed=1) 

test.collect() 
## [4, 7, 8] 

train.collect() 
## [0, 1, 2, 3, 5, 6, 9]

和DataFrames

df = rdd.map(lambda x: (x,)).toDF(["x"]) 

test, train = df.randomSplit(weights=[0.3, 0.7])

提供randomSplit方法，其可以在這裏使用。

注：

randomSplit使用針對每個輸出RDD單個filter表達。通常，從單個Spark轉換中產生多個RDDs是不可能的。有關詳細信息，請參閱https://stackoverflow.com/a/32971246/1560062。
您不能使用subtract與字典，因爲它在內部表示它爲cogorup，因此要求對象爲hashable。又見A list as a key for PySpark's reduceByKey

來源

2015-09-30 04:17:21 zero323

如何在火花中將rdd數據分成兩部分？

回答

相關問題