2012-11-23 201 views
0

我有一個大的數據與二進制用戶設置/項功能矩陣:集羣二進制數據

  1. 我需要集羣用戶和項目。無論如何要在Mahout中同時完成它們嗎?
  2. 更重要的是,如果我使用loglikelihood作爲相似性度量,那麼算法實際上會支持這種距離度量來對數據進行聚類?

回答

1

不,用戶和項目的集羣是獨立的進程。儘管在精神上它是完全相同的過程,但是應用了兩種不同的方式。

如果你想在Mahout中得到更具體的答案,你將不得不多說你正在使用的代碼的哪些部分,因爲有幾個不同的部分涉及到聚類。

項目中有一些凝聚性聚類項目,適用於任何相似性度量。我知道的其他實現肯定是「k-means」變種,假設一個連續的向量空間,而不是{0,1}上的向量。你會需要一個k-medoids算法,我認爲這並不在我所知道的項目中。

+0

謝謝肖恩,您能否更具體地瞭解Mahout的聚集性聚類部分。我正處於設計階段,需要知道我是否有相似度矩陣,根據此度量值來聚類數據,將使用什麼樣的聚類算法。 – user1848018

+0

我想'TreeClusteringRecommender',這是我做的舊的和非分佈式的代碼,而不是我特別推薦給任何人的東西。但由於它不是基於質心的,所以只需要一個相似性度量。一般來說,你的問題的答案是'k-medoids'。 –

+0

謝謝肖恩,非常感謝 – user1848018