我想知道分佈式mahout推薦作業org.apache.mahout.cf.taste.hadoop.item.RecommenderJob
如何處理csv文件,其中重複和三重用戶項目條目存在但具有不同的首選項值。舉例來說,如果我有這樣的有一個像
1,1,0.7
1,2,0.7
1,2,0.3
1,3,0.7
1,3,-0.7
Mahout Datamodel具有重複的用戶,項目Enteries但不同的首選項值
項.csv文件將如何亨利馬烏的數據模型處理呢?它會總結給定用戶的偏好值,項目條目(例如,對於用戶項目1,2,偏好將是(0.7 + 0.3)),還是它平均值(例如,對於用戶項目1,2,偏好是(0.7 + 0.3)/ 2),還是默認爲最後一個用戶,它檢測到的項目條目(例如,對於用戶1,2,優先值設置爲0.3)。
我問這個問題,因爲我正在考慮基於多種偏好度量(項目視圖,喜歡,不喜歡,保存到購物車等)的建議。如果數據模型將偏好值視爲線性權重(例如,項目視圖加上保存到期望列表具有比項目視圖更高的偏好分數)將是有幫助的。如果datamodel已經通過求和來處理這個問題,那麼它將爲我節省額外映射的繁瑣工作 - 減少根據多個指標對總分數進行排序和計算。任何澄清任何人可以提供mahout .csv datamodel作品在這方面的org.apache.mahout.cf.taste.hadoop.item.RecommenderJob
將非常感激。謝謝。
看起來,這可以通過使用K均值算法的ř執行來解決。只是想分享信息。 – Swamy