我需要對包含大部分零值的矩陣進行聚類...... K-means是否適合這些類型的數據,還是需要考慮不同的算法?K-means用於聚集具有許多零值的數據嗎?
1
A
回答
0
k -means廣泛用於聚類稀疏數據,如文檔術語向量,所以我會說繼續。當然,取得好成績取決於數據和你要找的東西。
有幾件事情要記住:
- 如果你有非常稀疏的數據,那麼你的輸入可以減少多個數量級的內存使用和運行時間,所以挑一個好的的sparse representation k - 意味着實施。
- 歐幾里德距離並不總是稀疏向量的最佳度量,但將它們歸一化爲單位長度可能會產生更好的結果。
- 無論輸入稀疏度如何,羣集質心都很可能密集,因此不要使用太多的功能。
- 降低維度,例如樣本上的SVD可能會大大提高運行時間和集羣質量。
2
不是。原因是的意思是在稀疏數據上不明智。由此產生的平均向量將具有與您的實際數據非常不同的特徵;他們通常最終會變得比實際文檔更相似!
有一些修改可以改進用於稀疏數據的k-means,例如球形 k-means。
但很大程度上,這種數據上的k-means僅僅是一種粗糙的啓發式。結果並不完全沒有用,但它們並不是你可以做的最好的。它有效,但是偶然,而不是設計。
相關問題
- 1. 如何聚集索引的工作時,它具有相同值的許多鍵
- 2. 算法用於聚集股票圖表數據點出許多DB的條目
- 3. SSAS多維數據集中的計算不能用於零數據值
- 4. KMEANS文本數據進行聚類
- 5. kmeans聚類與數據框(scipy)
- 6. 如何可視化多維數據上的kmeans聚類
- 7. 用於聚類算法的數據集
- 8. 具有許多OR子句的數據集
- 9. 具有許多離散功能的機器學習數據集
- 10. 如何使用具有1維數組值的集合聚類?
- 11. 排除行狀態具有聚集上的少於一些值
- 12. 使用具有更多值的新數據集更新餅圖
- 13. 用於細長數據集的聚類K均值算法
- 14. 確定具有大數據集的k均值的最佳聚類數
- 15. 具有多個允許值類型的數據庫字段
- 16. 貨幣驗證sholdn't允許零個或多個具有零
- 17. opencv kmeans聚簇多個墊子
- 18. 具有多個表的數據集
- 19. Clara_具有R中許多級別的分類數據的大數據集的數據集
- 20. 我可以擁有沒有聚集索引的主鍵嗎?我也可以擁有多值聚簇索引嗎?
- 21. 使用kmeans matlab分割兩個數據集中的數據
- 22. 基於許多條件的數據框的多個子集
- 23. 用於基準測試的數據集具有數百萬數據的模糊聚類方法
- 24. 在羣集kmeans數據上顯示行
- 25. 訪問由KMeans羣集分組的數據的有效方式
- 26. R:如果列有少於3個零聚合數據幀,否則返回零
- 27. 優化修剪的K-means用於聚類具有多個異常值的2D數據?更好的方法?
- 28. kmeans集羣中的集羣錯誤數
- 29. 使用sklearn KMeans與SciPy kmeans相比有優勢嗎?
- 30. 替換具有多個數據集的現有ggplot的數據集