Apache Mahout + Pearson相關性忽略每個項目具有相同首選項的用戶

我使用Mahout和Pearson Correlation算法來根據他們對多個項目的偏好比較和查找類似的用戶。我遇到的問題是，Mahout和/或Pearson忽略爲每個項目選擇相同首選項的用戶。有誰知道是否有一種方法來配置Mahout不會忽略爲每個項目選擇相同首選項值的人員。Apache Mahout + Pearson相關性忽略每個項目具有相同首選項的用戶

來源

2011-10-14 10GritSandpaper

這不是一個配置問題。 Pearson相關性在這種情況下是不確定的，因此使用這個度量可以在它們之間不計算相似度。

本質上 - 皮爾森是兩個偏好系列的協方差與其標準偏差乘積的比率。但是，當一個或兩個序列相同時，標準偏差爲0，協方差也如此，因此相關性爲0/0。

（這和其他一些皮爾遜陷阱覆蓋在Mahout in Action第4章，我這本書，這部分代碼的作者。）

來源

2011-10-14 21:19:45

謝謝。 Mahout支持的另一種算法可以像Pearson一樣工作，但這將允許用戶選擇統一的偏好值。 – 10GritSandpaper

你可以嘗試EuclideanDistanceSimilarity。 LogLikelihoodSimilarity是另一個不錯的選擇;它甚至不使用pref值。 –

感謝您的回覆，我有一個跟進的問題是相關的，但不符合此主題。我想知道你是否可以看看它？ http://stackoverflow.com/questions/7821944/apache-mahout-euclidean-distance-unexpected-results 謝謝。 – 10GritSandpaper

Apache Mahout + Pearson相關性忽略每個項目具有相同首選項的用戶

回答

相關問題