2
對於推薦系統,我需要計算餘弦相似度整個星火據幀的所有之間的列。阿帕奇星火Python的餘弦相似度超過DataFrames
在熊貓我來做到這一點:
import sklearn.metrics as metrics
import pandas as pd
df= pd.DataFrame(...some dataframe over here :D ...)
metrics.pairwise.cosine_similarity(df.T,df.T)
生成該列之間的相似矩陣(因爲我使用的換位)
有沒有辦法做同樣的事情在Spark(Python)中?
(我需要這適用於由數百萬行和列的成千上萬的矩陣,所以這就是爲什麼我需要做的是在星火)
我該怎麼辦了行,而不是列? – Charleslmh
@mtoto你知道如何在Scala中實現相同的功能嗎?https://stackoverflow.com/questions/47010126/calculate-cosine-similarity-spark-dataframe –
你能解釋一下matrixEntry的結果嗎?像什麼是0和2? –