2012-02-06 33 views
0

我們假設用戶投票選出一些電影,比例爲1到5.這些電影有類型信息,而電影可以有多個類型。像這樣:尋找評分值爲最喜歡的用戶的項目

Movie A Rating 4 
Action/Sci-Fi 

Movie B Rating 5 
Comedy/Action 

Movie C Rating 4 
Comedy/Drama 

我們想要了解哪種流派喜歡我們的用戶。在這裏,我們有我們的結果集:

Genre Movie_Count Average_Rating 

---------- 
Action 2 5 
Comedy 2 4.5 
SciFi 1 4 
Drama 1 4 

顯然,我們不能用這麼小的結果集預測什麼,但讓我們假設,我們已經一個更大的數據集。

使用此項的數據,我們如何排列這個使用者中最偏好的類型?簡單地計算加權平均或更復雜的東西?

回答

1

我在這裏看到的主要問題是:

用戶速率1000喜劇電影平均得分爲4部

用戶率10動作電影,平均得分爲4.1

你如何訂購它們?

請參閱http://www.evanmiller.org/how-not-to-sort-by-average-rating.html討論和一個可能的解決方案。

的另一個問題是:

如果影片既喜劇和動作,並給出等級4.0,多少是因爲它是喜劇或動作?

您可以使用期望最大化http://en.wikipedia.org/wiki/Expectation%E2%80%93maximization_algorithm解決此問題。