2012-04-16 54 views
3

我有一個表示爲1.0的偏好的大數據集,我使用Tanimoto相似函數和通用布爾用戶和項偏好推薦器。推薦值通常介於0和1.0之間。爲什麼LogLikelihoodSimilarity函數爲0和1的數據集返回大於1.0的值?

許多來源(如Mahout in Action book)和this prior SO thread都推薦Tanimoto上的LogLikelihoodSimilarity指標用於布爾數據集。當我切換到LogLikelihood相似性度量標準時,它會在更高的範圍內生成一些分數,例如11。我不得不回到Tanimoto以獲得更多的感官評分。您能否提出任何潛在的修復方案,或者我誤解了推薦項目分數的返回值?

回答

2

在沒有評級的情況下,您觀察的值是而不是預測的評級。畢竟,它們都是1.0,所以不能用於排名。結果實際上是一個相似之處,這就是爲什麼它可以是任意大的。它不應該在[0,1]或類似的東西中。

+1

因此,使用LogLikelihoodSimilarity,我們將如何評分預測。是否可以設置表示關聯或缺少閾值的閾值? – kitwalker 2012-04-22 02:31:06

+0

您仍然按價值排列預測。不,沒有魔法門檻;這取決於你的數據和用例。 – 2013-04-02 08:10:58

相關問題