2
我正在嘗試使用pyspark將我的reduceByKey函數的輸出作爲相對於該鍵傳遞的整數的範圍。使用spark在一個操作中找到使用spark的reduceByKey的值範圍
我嘗試做一個自定義函數:
def _range(x,y):
return [max(x,y), min(x,y)]
data2 = data_.map(lambda x: (x[u'driverId'] + ',' + x[u'afh'], int(x['timestamp'])))
.reduceByKey(lambda x,y: _range(x,y))
當然
輸出出來的名單列表中列出
我知道內部的解決辦法是
.reduceByKey(max)
其次
.reduceByKey(min)
^^^^然後結合他們,但我不想執行兩個操作
但我想這樣做在一個傳遞所以應用程序並不低效。我也想避免首先填充整數列表。 有什麼想法?數據在RDD中。 感謝