2013-08-05 20 views

回答

0

k -means廣泛用於聚類稀疏數據,如文檔術語向量,所以我會說繼續。當然,取得好成績取決於數據和你要找的東西。

有幾件事情要記住:

  • 如果你有非常稀疏的數據,那麼你的輸入可以減少多個數量級的內存使用和運行時間,所以挑一個好的sparse representation k - 意味着實施。
  • 歐幾里德距離並不總是稀疏向量的最佳度量,但將它們歸一化爲單位長度可能會產生更好的結果。
  • 無論輸入稀疏度如何,羣集質心都很可能密集,因此不要使用太多的功能。
  • 降低維度,例如樣本上的SVD可能會大大提高運行時間和集羣質量。
2

不是。原因是的意思是在稀疏數據上不明智。由此產生的平均向量將具有與您的實際數據非常不同的特徵;他們通常最終會變得比實際文檔更相似!

有一些修改可以改進用於稀疏數據的k-means,例如球形 k-means。

但很大程度上,這種數據上的k-means僅僅是一種粗糙的啓發式。結果並不完全沒有用,但它們並不是你可以做的最好的。它有效,但是偶然,而不是設計。

相關問題