我有一個user_id作爲列的dataframe和他們喜歡的電影的id作爲行值。 (即每個用戶之間的使用他們喜歡的電影)計算不同長度的DataFrame列之間的Jaccard相似度
15 30 50 93 100 113 1008 1028
0 3346.0 42779.0 1816.0 191319.0 138.0 183.0 171.0 283.0
1 1543.0 NaN 169.0 5319.0 34899.0 188.0 42782.0 1183.0
2 5942.0 NaN 30438.0 195514.0 169.0 172.0 187.0 5329.0
3 3249.0 NaN 32361.0 225.0 87.0 547.0 6710.0 283.0
4 794.0 NaN 187.0 195734.0 6297.0 8423.0 1289.0 222.0
我試圖計算每列之間的Jaccard相似:這裏有一個片段。 Python中提供了以下錯誤,當我嘗試使用sklearn發現jaccard_similarity_score:
ValueError: continuous is not supported
理想的情況下,作爲一個結果,我想獲得的行和USER_ID的列和值的相似度得分矩陣每。
如何才能計算這些列之間的jaccard相似度?我試圖使用帶鍵的字典列表作爲用戶ID和值作爲電影列表,但它需要永遠計算。
https://stackoverflow.com/questions/37003272/how-to-compute-jaccard-similarity-from-a-pandas-dataframe – MaxU
我列具有不等的長度,我不應該做的可能欺騙因爲相同的movie_id不一定具有相同的索引(即我不應該比較column_1 [i]和column_2 [i],我應該改爲set(column [1])vs set(column [2])) – b104
你發佈你想要的數據集? – MaxU