2013-08-25 83 views
5

我在一個文件中的數據在以下形式:如何在numpy python中創建相似性矩陣?

user_id, item_id, rating 
1, abc,5 
1, abcd,3 
2, abc, 3 
2, fgh, 5 

因此,矩陣欲形成用於上述數據被以下:

# itemd_ids 
# abc abcd fgh 
[[5, 3, 0] # user_id 1 
[3, 0, 5]] # user_id 2 

其中丟失的數據是由0

取代

但是,從這我想創建用戶到用戶相似度矩陣和項目相似度矩陣?

我該怎麼做?

回答

4

從技術上講,這不是一個編程問題,而是一個數學問題。但我認爲你最好使用方差 - 協方差矩陣。或者相關矩陣,如果價值尺度有很大的不同,比如說,而不是有:

>>> x 
array([[5, 3, 0], 
     [3, 0, 5], 
     [5, 5, 0], 
     [1, 1, 7]]) 

您有:

>>> x 
array([[5, 300, 0], 
     [3, 0, 5], 
     [5, 500, 0], 
     [1, 100, 7]]) 

爲了得到方差COV矩陣:

>>> np.cov(x) 
array([[ 6.33333333, -3.16666667, 6.66666667, -8.  ], 
     [ -3.16666667, 6.33333333, -5.83333333, 7.  ], 
     [ 6.66666667, -5.83333333, 8.33333333, -10.  ], 
     [ -8.  , 7.  , -10.  , 12.  ]]) 

或相關矩陣:

>>> np.corrcoef(x) 
array([[ 1.  , -0.5  , 0.91766294, -0.91766294], 
     [-0.5  , 1.  , -0.80295507, 0.80295507], 
     [ 0.91766294, -0.80295507, 1.  , -1.  ], 
     [-0.91766294, 0.80295507, -1.  , 1.  ]]) 

這是看它的方式,對角線單元格,即(0,0)單元格,是X中的第1個向量與它自己的相關性,所以它是1.其他單元格,即(0,1)單元格,是X中的第一個和第二個矢量。它們是負相關的。或者類似地,第一和第三個細胞是正相關的。

協方差矩陣或相關矩陣避免@Akavall指出的零問題。

+1

我認爲協變方法比我的解決方案更好。 – Akavall