考慮放射性散佈具有低於數據集 其中10000241是鍵,其餘的是值reduceByKey在火花用於添加元組
('10000241',([0,0,1],[None,None,'RX']))
('10000241',([0,2,0],[None,'RX','RX']))
('10000241',([3,0,0],['RX',None,None]))
pv1 = rdd.reduceBykey(lambda x,y :(
addtup(x[0],y[0]),
addtup(x[1],y[1]),
))
def addtup(t1,t2):
j =()
for k,v in enumerate(t1):
j = j + (t1[k] + t2[k],)
return j
最終輸出我想是(10000241,(3,2,1)(」 RX','RX','RX)) 但我得到的錯誤無法添加無類型的無類型或nonetype Str .how我可以克服這個問題?
我不是當然,爲什麼這是一個Spark問題,但在標準Python中給出了這三個元素,那麼如何將RX字符串與None結合起來呢?這是錯誤 –
另外你想要做的事情讓我想起SQL中的COALESCE運算符,除了你有0和None而不是null –