在聚類過程中會產生噪音,多餘和不相關屬性的影響嗎?他們最終是幫助還是傷害了集羣?我知道它無法處理嘈雜的數據,但不能確定其他兩個。確定聚類的影響
Q
確定聚類的影響
2
A
回答
1
噪聲
的許多聚類算法等k-均值,中位數左右等分區性能會隨着噪聲增加的百分比。對於k均值聚類中的例子,由於異常值(與數據集有很大差異的數據),聚類質心會有所不同。該算法需要很長時間才能收斂,並且可能無法實現良好的聚類。
大多數聚類算法偏好從聚類之前的數據集中去除噪聲(異常值)。
有關詳細信息:Effect of noise on the performance of clustering techniques
冗餘數據(沒有多餘的屬性,但冗餘數據點)
這也影響負面聚類而是取決於聚類算法。如果任何算法考慮了數據點的頻率(例如,取聚類點的平均值,中值等),則意味着,羣集的中值可能變化。
通常情況下,您不希望根據發生任何數據點的可能性來對數據進行聚類。因此,如果任何數據點是多餘的,建議在羣集之前將其刪除。
如果您考慮冗餘屬性(即共同相關屬性),它可能會或可能不會影響聚類。取決於數據集的領域。
無關屬性
以消極的方式這也影響羣集。由於不相關的屬性,聚類可能不會收斂。事實上,有時不相關的屬性被認爲是噪聲。此外,更高的維度來自維度的詛咒。所以經常建議在聚類之前進行降維。
一些細節:
Clustering high dimensional data
Effect of irrelevant attribute on fuzzy clustering
相關問題
- 1. 確定影響的相對速度?
- 2. 影響提交的特定行的類
- 3. 如何確定PerlLogHandler性能影響?
- 4. 確實getWritableDatabase()影響交易
- 5. K均值聚類,爲什麼簇的不同初始位置影響最終的聚類結果?
- 6. 外部CSS影響(「流血」進入)影子DOM與聚合物
- 7. 穩定性的影響
- 8. jQuery的不影響正確的項目
- 9. 兒童影響類的父類
- 10. 快捷類影響性能?
- 11. css類不會影響
- 12. 正確影響stuct指針的值
- 13. 聚合上的ElasticSearch過濾器在不影響聚合計數的情況下
- 14. TFS如何使用「影響」和「受影響者」鏈接類型?
- 15. TFS2015 - 確定vNext構建期間受影響的測試
- 16. 確定表是否受到任何觸發器的影響
- 17. JDO - 確定受事務提交影響的實體
- 18. Klout中的影響者和影響力
- 19. 定位的類型真的影響我的JavaScript
- 20. U-SQL表中的聚簇索引是否影響並行性?
- 21. 聚簇索引的列順序如何影響性能
- 22. 更新聲明中的非聚集索引性能影響
- 23. 的Java類沒有定義的serialVersionUID影響性能或不
- 24. 陰影效果的影響
- 25. 確實PHP版本影響MIME.php codeigniter
- 26. jQuery的影響所有與同一類
- 27. 對分區沒有影響的CSS類
- 28. 可觀察類的性能影響
- 29. 對子類的影響分析
- 30. jQuery影響父元素外部的類