0
據我所知,HAC在連接功能方面有幾個選項。您有:如何選擇分層凝聚聚類的聯動方法?
- 產生單聯動「散亂」集羣
- 產生緊張,球團
- 平均連接是那種在兩個
- Ward的方法之間的妥協,這是完全連鎖基於更多的方差比實際距離
我想弄清楚的是,我怎麼知道這些我想使用哪一個?是否有某些數據集的「零散」簇比球形簇更好?還是它更多地是我打算對聚類數據做的功能?
據我所知,HAC在連接功能方面有幾個選項。您有:如何選擇分層凝聚聚類的聯動方法?
我想弄清楚的是,我怎麼知道這些我想使用哪一個?是否有某些數據集的「零散」簇比球形簇更好?還是它更多地是我打算對聚類數據做的功能?
這取決於您的數據。
單連接在乾淨的數據上工作得很好。
如果你有髒數據,其他聯繫可能會更好。
病房類似於k-means。如果你想談論質心和完全分割成不相交子集的數據,這可能是一個不錯的選擇。
另一個問題是隻有SLINK(對於單鏈路)速度很快。所有其他人通常在O(n^3)中工作,因此它們不適用於大型數據集。將此與例如DBSCAN運行在O(n日誌n)如果做得好,或kmeans在O(n)...
你究竟乾淨的數據是什麼意思? –
沒有太多噪音和異常值。 –