3
我使用Mahout和Pearson Correlation算法來根據他們對多個項目的偏好比較和查找類似的用戶。我遇到的問題是,Mahout和/或Pearson忽略爲每個項目選擇相同首選項的用戶。有誰知道是否有一種方法來配置Mahout不會忽略爲每個項目選擇相同首選項值的人員。Apache Mahout + Pearson相關性忽略每個項目具有相同首選項的用戶
我使用Mahout和Pearson Correlation算法來根據他們對多個項目的偏好比較和查找類似的用戶。我遇到的問題是,Mahout和/或Pearson忽略爲每個項目選擇相同首選項的用戶。有誰知道是否有一種方法來配置Mahout不會忽略爲每個項目選擇相同首選項值的人員。Apache Mahout + Pearson相關性忽略每個項目具有相同首選項的用戶
這不是一個配置問題。 Pearson相關性在這種情況下是不確定的,因此使用這個度量可以在它們之間不計算相似度。
本質上 - 皮爾森是兩個偏好系列的協方差與其標準偏差乘積的比率。但是,當一個或兩個序列相同時,標準偏差爲0,協方差也如此,因此相關性爲0/0。
(這和其他一些皮爾遜陷阱覆蓋在Mahout in Action第4章,我這本書,這部分代碼的作者。)
謝謝。 Mahout支持的另一種算法可以像Pearson一樣工作,但這將允許用戶選擇統一的偏好值。 – 10GritSandpaper
你可以嘗試EuclideanDistanceSimilarity。 LogLikelihoodSimilarity是另一個不錯的選擇;它甚至不使用pref值。 –
感謝您的回覆,我有一個跟進的問題是相關的,但不符合此主題。我想知道你是否可以看看它? http://stackoverflow.com/questions/7821944/apache-mahout-euclidean-distance-unexpected-results 謝謝。 – 10GritSandpaper