2017-03-02 31 views
0

我在推薦引擎上工作,我現在面臨的一個問題是項目的相似度矩陣非常大。項目到項目的協同過濾,如何管理相似矩陣?

我計算了2萬個項目的相似度矩陣,並將它們存儲爲一個二進制文件,該文件調整爲接近1 GB。我認爲這太大了。

如果您有很多項目,處理相似性矩陣的最佳方法是什麼?

有任何建議!

+0

你能否提供一些更多的細節?文件的內容是什麼?你的矩陣是怎樣的? –

回答

1

實際上,相似矩陣是關於物體如何與另一物體相似。每行由對象(行ID)的鄰居組成,但不需要存儲所有鄰居,例如僅存儲20個鄰居。使用lil_matrix: from scipy.sparse import lil_matrix

+0

我後來意識到我不必存儲相似度矩陣,只需在推薦時計算它。計算速度並不像我想的那麼慢,因爲它需要在實踐中計算整個矩陣的一小部分。 – arslan