0
有誰知道如何獲得Apache Mahout中給定數據集的任何兩個用戶之間的相似度數值?在Apache Mahout中顯示兩個用戶之間的皮爾遜相關相似度
有誰知道如何獲得Apache Mahout中給定數據集的任何兩個用戶之間的相似度數值?在Apache Mahout中顯示兩個用戶之間的皮爾遜相關相似度
有幾種方法,你的數據是什麼樣的?互動數據是否像購買或觀看或評分?
如果是這樣,itemsimilarity或spark-items相似性將工作,而不是餵食交換項目和用戶ID。如果將數據編碼爲稀疏矩陣(每個用戶一行),則還可以使用行相似性或火花行相似性。
對於hadoop作業,ID必須爲項目和用戶的Mahout ID,非零行號和列號。對於Spark作業,您可以使用任何您想要的ID - 它們將作爲文本讀取,因此必須是唯一的字符串。
Pearson只支持hadoop作業。 Spark作業僅使用對數似然比。在協作過濾應用程序中,LLR幾乎總是比其他「相似性」指標更好。