0
我對Spark很新,所以請原諒我的無知:)。對於以下兩個鍵值對:PySpark中唯一的鍵值對
dataset = sc.parallelize([
("a1", "b1"),
("b1", "a1"),
])
是否有一種高效且簡單的方法來提取獨特元素?也就是說,只提取
("a1", "b1")
例如。 我認爲distinct()可能會完成這項工作,但由於它涉及混洗,因此對於大型Hadoop文件而言,性能應該會相當高昂。提前致謝!