0
我可以統計整個文檔中每個字符的總數。計數每行的字符數pyspark
我的文檔:
ATATCCCCGGGAT
ATCGATCGATAT
計算文檔中的每個字符的總數:
結果:
[(u'A', 7), (u'C', 6), (u'T', 7), (u'G', 5)]
我實現
counts=data.map(lambda x:[(c,1)for c in x])
for row in counts.collect():
print sc.parallelize(row).reduceByKey(lambda x,y:x+y).collect()
有沒有更好的方法來做到這一點?
通常儘量避免或最大限度地減少ByKey操作,如果可以 – grepe