2011-10-14 87 views

回答

6

這不是一個配置問題。 Pearson相關性在這種情況下是不確定的,因此使用這個度量可以在它們之間不計算相似度。

本質上 - 皮爾森是兩個偏好系列的協方差與其標準偏差乘積的比率。但是,當一個或兩個序列相同時,標準偏差爲0,協方差也如此,因此相關性爲0/0。

(這和其他一些皮爾遜陷阱覆蓋在Mahout in Action第4章,我這本書,這部分代碼的作者。)

+0

謝謝。 Mahout支持的另一種算法可以像Pearson一樣工作,但這將允許用戶選擇統一的偏好值。 – 10GritSandpaper

+0

你可以嘗試EuclideanDistanceSimilarity。 LogLikelihoodSimilarity是另一個不錯的選擇;它甚至不使用pref值。 –

+0

感謝您的回覆,我有一個跟進的問題是相關的,但不符合此主題。我想知道你是否可以看看它? http://stackoverflow.com/questions/7821944/apache-mahout-euclidean-distance-unexpected-results 謝謝。 – 10GritSandpaper

相關問題