在Apache Mahout中顯示兩個用戶之間的皮爾遜相關相似度

有誰知道如何獲得Apache Mahout中給定數據集的任何兩個用戶之間的相似度數值？在Apache Mahout中顯示兩個用戶之間的皮爾遜相關相似度

有幾種方法，你的數據是什麼樣的？互動數據是否像購買或觀看或評分？

如果是這樣，itemsimilarity或spark-items相似性將工作，而不是餵食交換項目和用戶ID。如果將數據編碼爲稀疏矩陣（每個用戶一行），則還可以使用行相似性或火花行相似性。

對於hadoop作業，ID必須爲項目和用戶的Mahout ID，非零行號和列號。對於Spark作業，您可以使用任何您想要的ID - 它們將作爲文本讀取，因此必須是唯一的字符串。

Pearson只支持hadoop作業。 Spark作業僅使用對數似然比。在協作過濾應用程序中，LLR幾乎總是比其他「相似性」指標更好。

2014-12-20 17:25:01 pferrel

回答