項目到項目的協同過濾，如何管理相似矩陣？

我在推薦引擎上工作，我現在面臨的一個問題是項目的相似度矩陣非常大。項目到項目的協同過濾，如何管理相似矩陣？

我計算了2萬個項目的相似度矩陣，並將它們存儲爲一個二進制文件，該文件調整爲接近1 GB。我認爲這太大了。

如果您有很多項目，處理相似性矩陣的最佳方法是什麼？

有任何建議！

2017-03-02 arslan

你能否提供一些更多的細節？文件的內容是什麼？你的矩陣是怎樣的？ –

實際上，相似矩陣是關於物體如何與另一物體相似。每行由對象（行ID）的鄰居組成，但不需要存儲所有鄰居，例如僅存儲20個鄰居。使用lil_matrix： from scipy.sparse import lil_matrix

2017-05-09 16:25:08 rustohero

我後來意識到我不必存儲相似度矩陣，只需在推薦時計算它。計算速度並不像我想的那麼慢，因爲它需要在實踐中計算整個矩陣的一小部分。 – arslan

回答