1

我正在使用基於項目的協作過濾器爲餐館創建推薦的推薦引擎。每家餐館的評論評分從1到5。
每個推薦算法都會遇到數據稀疏問題,所以我一直在尋找解決方案來計算正確的相關性。基於項目的協作過濾器的最小數據量

我在餐廳之間使用調整後的餘弦相似度。

當您想計算餐廳之間的相似度時,您需要評價這兩家餐廳的用戶。但是,對兩家餐廳進行評分以獲得正確關聯的用戶的最小數量是多少?

從測試中,我發現有一組用戶對兩家餐廳進行評分會導致不良的相似性(很明顯)。通常它是-1或1.所以我將它增加到了兩個同時擁有餐廳的用戶,這給了我更好的相似之處。我發現很難確定這種相似性是否足夠好。有沒有一種方法可以檢驗這種相似性的準確性,還是有關於最小值如何的準則?

回答

0

簡短的答案是參數掃描:嘗試「評價兩家餐廳的最低用戶數」的幾個值並測量結果。隨着更多的用戶,你會更好地瞭解項目(餐館)之間的相似性。但是你的相似性信息會更加稀疏。也就是說,你會專注於更受歡迎的物品,並且不太可能推薦長尾物品。這意味着你總是會有一個權衡,你應該衡量一切,讓你做出權衡。例如,測量預測準確度(例如RMSE)以及可能推薦的項目數量。

如果您的物品空間變得太稀疏,您可能需要找到其他方式來完成超出用戶評分的物品項目相似度。例如,您可以使用基於內容的過濾方法來包含有關每家餐廳美食的信息,然後創建一箇中間步驟來了解每位用戶的美食偏好。即使您沒有項目相似性分數,這也可以讓您做出建議。

相關問題