我正在構建一個用於零售目的的推薦系統。我使用python和Spark。在兩個巨大的RDD上加入或減去密鑰
我想減去我的預測也出現在收視率(所以我只預測用戶之前從未買過的產品的價值)的所有用戶產品組合。
那些2名RDD的是相當大的,並給了我記憶的問題上每個工作節點28GB(3個節點),當我做
filter_predictions = predictions.subtractByKey(user_boughtproduct)
當我讀到星火subtractByKey的文檔是最佳使用1時大和1小rdd。
我不能使user_boughtproduct更小(除非我循環它),但我可以做出。
filter_predictions = predictions.join(user_nonBoughtProduct)
任何想法上他們是快或最佳實踐的?或者另一個更清潔的解
我明白了。有關其他方法的任何提示? – Kevin
你需要確切的結果嗎? – zero323
優選是。 – Kevin