2012-11-23 76 views
1

假設我在Mahout中有一個用戶/項目特徵矩陣,並且我推導出了用戶的對數似然相似性並確定了三個用戶簇。現在,我有一個擁有一組項目(相同格式和相同項目集)的新用戶,如何在不重新計算相似性矩陣和重新聚集過程的情況下爲新用戶分配這三個羣集中的一個? 問題是如果我使用當前集羣質心並計算對數似然相似度或任何距離度量,質心不再是二進制。如果我使用k-中位數,則存在全部爲零的風險。什麼是解決這個問題的好方法?是否有任何建議使用的模型基礎集羣,特別是在MAhout中?將新的觀察分配給簇

回答

1

如何爲集羣提供訓練分類器?

爲了避免零,您可以使用k-medoids。這裏的關鍵區別在於,k-medoids將從數據集中選擇最中心的對象,因此它實際上與您的數據對象具有相同的稀疏性。

因爲我不使用Mahout,我不知道這是否可用Mahout。據我所知,它比k-均值或k-中值的計算密集得多。

+0

謝謝,這很有幫助 – user1848018

相關問題