0
如何在訂購操作後返回RDD。我想按一個值排序,獲得最高結果並按第二個值排序。Pyspark在排序後返回RDD
例如,
rdd = sc.parallelize([(1, "a", 10), (2, "b", 9), (3, "c", 8)])
res = rdd.takeOrdered(2, lambda x: x[0]) # sort on first value
# sort on second value
out = sc.parallelize(res).sortBy(lambda x: x[2]).collect()
但是我可以有res
是RDD並做一步到位?喜歡的東西
rdd.takeOrdered(2, lambda x: x[0])\
.sortBy(lambda x: x[2])
啊,'zipWithIndex'適用於我想要做的事情。 Thankyou – jenesaisquoi
不客氣。很高興幫助! – Psidom