0

據我所知,HAC在連接功能方面有幾個選項。您有:如何選擇分層凝聚聚類的聯動方法?

  • 產生單聯動「散亂」集羣
  • 產生緊張,球團
  • 平均連接是那種在兩個
  • Ward的方法之間的妥協,這是完全連鎖基於更多的方差比實際距離

我想弄清楚的是,我怎麼知道這些我想使用哪一個?是否有某些數據集的「零散」簇比球形簇更好?還是它更多地是我打算對聚類數據做的功能?

回答

1

這取決於您的數據。

單連接在乾淨的數據上工作得很好。

如果你有髒數據,其他聯繫可能會更好。

病房類似於k-means。如果你想談論質心和完全分割成不相交子集的數據,這可能是一個不錯的選擇。

另一個問題是隻有SLINK(對於單鏈路)速度很快。所有其他人通常在O(n^3)中工作,因此它們不適用於大型數據集。將此與例如DBSCAN運行在O(n日誌n)如果做得好,或kmeans在O(n)...

+0

你究竟乾淨的數據是什麼意思? –

+0

沒有太多噪音和異常值。 –