K-means用於聚集具有許多零值的數據嗎？

我需要對包含大部分零值的矩陣進行聚類...... K-means是否適合這些類型的數據，還是需要考慮不同的算法？K-means用於聚集具有許多零值的數據嗎？

k -means廣泛用於聚類稀疏數據，如文檔術語向量，所以我會說繼續。當然，取得好成績取決於數據和你要找的東西。

有幾件事情要記住：

如果你有非常稀疏的數據，那麼你的輸入可以減少多個數量級的內存使用和運行時間，所以挑一個好的的sparse representation k - 意味着實施。
歐幾里德距離並不總是稀疏向量的最佳度量，但將它們歸一化爲單位長度可能會產生更好的結果。
無論輸入稀疏度如何，羣集質心都很可能密集，因此不要使用太多的功能。
降低維度，例如樣本上的SVD可能會大大提高運行時間和集羣質量。

2013-08-05 16:31:31

不是。原因是的意思是在稀疏數據上不明智。由此產生的平均向量將具有與您的實際數據非常不同的特徵;他們通常最終會變得比實際文檔更相似！

有一些修改可以改進用於稀疏數據的k-means，例如球形 k-means。

但很大程度上，這種數據上的k-means僅僅是一種粗糙的啓發式。結果並不完全沒有用，但它們並不是你可以做的最好的。它有效，但是偶然，而不是設計。

2013-08-05 22:08:46

回答