3
我在Spark RDD中有一個數據,我想將它分成兩部分,比如0.7。例如,如果RDD看起來是這樣的:如何在火花中將rdd數據分成兩部分?
[1,2,3,4,5,6,7,8,9,10]
我想把它分成rdd1
:
[1,2,3,4,5,6,7]
和rdd2
:
[8,9,10]
隨着規模0.7。 rdd1
和rdd2
應該每次都是隨機的。我想是這樣的:
seed = random.randint(0,10000)
rdd1 = data.sample(False,scale,seed)
rdd2 = data.subtract(rdd1)
和它的作品,但有時當我的數據中包含dict
我遇到了一些問題。例如用數據如下:
[{1:2},{3:1},{5:4,2;6}]
我得到
TypeError: unhashable type: 'dict'