我們正試圖找到其中的項目在各種列出了用戶評選項目(以及後來的用戶)之間的相似性最有效的相似性度量(認爲羅布,巴里和迪克在Hi Fidelity)。給定列表中較低的索引意味着較高的評分。的名單排名第一的項目
我想一個標準的方法是使用皮爾森相關,然後以某種方式顛倒索引。
不過,據我瞭解,Pearson相關的目的是爲了補償誰的普遍評價事物或高或低,但有一個類似的相對等級的用戶之間的差異。
在我看來,如果列表是連續的(儘管任意長度的),它不是從位置所隱含的收視率會以這種方式被扭曲的問題。
我想在這種情況下,基於歐幾里德的相似性就足夠了。是這樣嗎?如果使用Pearson相關性會產生負面影響,並且發現相關性不合適?什麼樣的相似性度量可能最適合這些數據
此外,同時我們希望位置列表中有我們不想懲罰那些相距甚遠的排名效果。兩名用戶在列表中列出具有非常不同排名的項目時,仍應視爲相似。
我很喜歡Tau的排名。它看起來很完美,但我擔心它的複雜性。因爲你必須比較所有可能的配對項目,所以每對用戶需要做更多的工作。也許它會遭受更密集的數據集? –
僅考慮每個用戶的最高評分中的項目,或者隨機抽取適量的對,應該快速給出合理的近似值。我沒有這個指標的實踐經驗,只是我的猜測。 –