2014-12-20 24 views

回答

0

有幾種方法,你的數據是什麼樣的?互動數據是否像購買或觀看或評分?

如果是這樣,itemsimilarity或spark-items相似性將工作,而不是餵食交換項目和用戶ID。如果將數據編碼爲稀疏矩陣(每個用戶一行),則還可以使用行相似性或火花行相似性。

對於hadoop作業,ID必須爲項目和用戶的Mahout ID,非零行號和列號。對於Spark作業,您可以使用任何您想要的ID - 它們將作爲文本讀取,因此必須是唯一的字符串。

Pearson只支持hadoop作業。 Spark作業僅使用對數似然比。在協作過濾應用程序中,LLR幾乎總是比其他「相似性」指標更好。

相關問題