2014-09-06 50 views
0

對角線元素值正如標題所講述的一切,這裏是鏈接到譜聚類Spectral clustering Documentation在象夫譜聚類,什麼應該是在親和基質

在它的第一步是爲我們的數據點提取相似矩陣。當它說相似性矩陣時,我假設相同實體(用戶,文檔等)之間的相似性應該是1(而不是距離矩陣,它是0)。

但在他們的榜樣,他們已經指定得分0相同的實體:

0.0 0

1,1 0

在這裏,我很困惑了一下。任何人,誰工作在譜聚類之前幫助我...

P.S .:我有我自己的方法來計算相似度分數,所以我不想使用任何內置的mahout函數。

在此先感謝..

+0

考慮*不使用亨利馬烏*。我對這個工具沒有太多信任,特別是它似乎真的很慢。在使用更好的工具在單個CPU上擊敗Mahout運行時後,我幾乎放棄了Mahout。僅僅因爲它運行在Hadoop上並不意味着它是好的或者快速的。 – 2014-09-06 18:54:49

+0

(但除此之外,我認爲你是正確的,值應該是1,或者任何內核產生的結果。如果它被人爲地設置爲0,它應該不是輸出的一部分。) – 2014-09-07 20:06:33

+0

感謝Anony- Moousse。實際上用各種種子值測試譜聚類。更新線程,一旦完成 – 2014-09-08 06:01:27

回答

0

我認爲,我們應該看到的相似矩陣圖論中的鄰接矩陣的擴展:1的,如果兩個節點是相鄰的,0的,如果他們不。在你的情況下,所有的節點都是相鄰的,並且你通過相似性矩陣來提取這個相關矩陣來編碼關於「有多少兩個觀測值相關的信息?」的信息。

因爲我們不認爲一個節點到相鄰本身除非它有其自身的連接,對角鄰接矩陣設置爲0