2014-02-15 47 views
-1

我有這個算法,我執行我需要改變,給它一個更好的精度。爲了讓你對這個問題有所瞭解,我有一大堆包含項目的列表,這些列表中的所有項目都被用戶給出了評分。我需要計算這些列表的權重,例如權重越高,列表越好(更好的是因爲它具有用戶良好評級的項目)。到目前爲止,我所做的是計算列表L中每個項目的平均值,將它們相加併除以列表L中的項目數量,因此列表L的權重將爲Sum(平均值爲L)/尺寸(L)。只是一個簡單的平均值。事實證明,這是一個很好的衡量標準,但是我想加入一個事實,即項目可以出現在多個列表中,而且在許多列表中找到的項目越多,這意味着列表的權重應該越高。發生次數給予較高的權重

我的統計知識是有限的,因此,所有我問的是幫助或方向或任何建議的主題,我可以讀/學習能夠算法優化,以最好的它都不可能得到的。

+0

你可以使用一個哈希表來找到多少列出了特定元素occour並給它一些更高的優先級。 –

回答

0

如果您確信,在列表中出現了很多項目是不是很少被提及的事項,更好,那麼你可以簡單地分配給每一個項目通過制定的評價中,每個列表的評級,你可以給一個項目時,沒有出現在列表中,就好像列表作者曾說過的那樣「當然,我根本沒有提到僅得分爲1星的項目」。當然,這可能意味着大衆市場項目或具有非常好的廣告商的項目獲得比他們應該更好的評級。

如果您認爲獲得大量評分的項目可能不會因此而變得更好,但至少可以更好地理解,您可以使用基於Reddit/Wilson Score/Bounds的分數,以便從中減去根據該評級的置信度界限評價項目的價值,而不是添加它。這意味着新近看到的物品會受到懲罰,而不是出現在可能導致人們評價他們的列表頂部。見http://www.evanmiller.org/how-not-to-sort-by-average-rating.html

如果你想在統計數據讀了,你可以用http://en.wikipedia.org/wiki/Missing_data開始。數據缺失是統計學中的一個重大話題,因爲它發生了很多,而且它是如何處理的,取決於數據缺失的原因,而且您可能不知道這一點。對此的一個明智的反應是設計你的實驗,或者我們的數據收集練習,或者你的調查,以便數據不會丟失太多,或者當他們這樣做的時候,你會知道爲什麼。例如,您可能會追查那些沒有返回調查表的人,並且看看那些在追查後返回調查表的人是否與立即歸還調查表的人不同。