0
有可能使用updateStateByKey()
函數與元組作爲值嗎?我使用PySpark,我的輸入是(word, (count, tweet_id))
,這意味着word
是一個關鍵字,而一個元組(count, tweet_id)
是一個值。 updateStateByKey
的任務是爲每個單詞總結他們的計數並創建包含該單詞的所有tweet_id的列表。Spark Streaming updateStateByKey與元組作爲值
我實現了以下更新功能,但我得到了錯誤列表索引超出範圍new_values
索引1:
def updateFunc(new_values, last_sum):
count = 0
tweets_id = []
if last_sum:
count = last_sum[0]
tweets_id = last_sum[1]
return sum(new_values[0]) + count, tweets_id.extend(new_values[1])
並調用方法:
running_counts.updateStateByKey(updateFunc)
可以分享pyspark代碼,我可以自己試試這樣一個例子。想知道爲什麼-1被給出 – thebluephantom
我在這個項目中遇到了這個問題https://github.com/dmacjam/twitter-word-cloud/blob/master/processing/trending_words.py –
thx,會嘗試並擺脫,如果減1 – thebluephantom