2016-09-14 37 views

回答

0

你可以去星火MLlib算法。 Spark提供機器學習算法,該算法通過使用用戶,產品和評分進行訓練。在你的情況下,評級將是一件物品的購買次數(用戶購買一件物品的次數)。

您可以按照此處顯示的示例Collaborative filtering - ALS直接轉到ALS算法。

+0

非常感謝。我會去嘗試一下。 –

0

亨利馬烏已基於所述概率數似然比(LLR)的用戶和項目相似性,這已被證明相比於其他相似的度量,得到優異的性能,並且僅在名義上「相似性」,實際上是一種相關性測試。 Mahout中的LLR會爲每個檢測到的事件(數據集中的行)生成一個分數。該數據收集在spark-itemsimilarity作業的「指示器」矩陣中。您可以將其與搜索引擎一起用於創建推薦人或使用我們爲PredictionIO創建的推薦人。

PredictionIO是一個帶有數據庫,工作流控制以及存儲和計算引擎集成的機器學習服務器。請參閱Universal Recommender,它使用Spark上的Mahout,並且是一個功能齊全的端到端推薦器,可以查詢基於用戶的建議。

+0

謝謝。我用對數似然比。但它忽略了購買記錄。我在考慮是否可以根據購買記錄改進推薦系統。因爲如果用戶多次購買商品,則可能表示用戶喜歡商品更多。 –

+0

您可能會認爲,但我已經使用tanimoto進行了交叉驗證實驗,tanimoto是使用矢量長度(購買數量),餘弦(不使用長度但使用購買次數)和LLR節拍的主要相似性指標這兩方面都有很大的優勢。這是來自大型在線零售商的真實世界ecom購買數據。這是因爲購買數量往往不表示偏好,這表明產品像現在一樣持久(除臭劑和紅牛的罐頭;-)。 – pferrel