2
所以我有一個名爲ngram_df一個火花數據框看起來像這樣Pyspark - 在火花數據框列使用reducebykey即列出
--------------------------------
Name | nGrams |
--------|--------------------- |
Alice | [ALI, LIC, ICE] |
Alicia | [ALI, LIC, ICI, CIA] |
--------------------------------
我想產生一個字典的形式,如輸出:
ALI: 2, LIC: 2, ICE: 1, ICI: 1, CIA: 1
我一直在試圖打開的n-gram列到RDD,這樣我就可以使用reduceByKey功能
rdd = ngram_df.map(lambda row: row['nGrams'])
test = rdd.reduceByKey(add).collect()
但是我得到的錯誤:
ValueError: too many values to unpack
即使使用flatmap沒有幫助,因爲我得到的錯誤:
ValueError: need more than 1 value to unpack
很好的答案,完美的作品。 – Zilong