2016-05-09 50 views
2

在聚類過程中會產生噪音,多餘和不相關屬性的影響嗎?他們最終是幫助還是傷害了集羣?我知道它無法處理嘈雜的數據,但不能確定其他兩個。確定聚類的影響

回答

1

噪聲
的許多聚類算法等k-均值,中位數左右等分區性能會隨着噪聲增加的百分比。對於k均值聚類中的例子,由於異常值(與數據集有很大差異的數據),聚類質心會有所不同。該算法需要很長時間才能收斂,並且可能無法實現良好的聚類。

大多數聚類算法偏好從聚類之前的數據集中去除噪聲(異常值)。
有關詳細信息:Effect of noise on the performance of clustering techniques

冗餘數據(沒有多餘的屬性,但冗餘數據點)
這也影響負面聚類而是取決於聚類算法。如果任何算法考慮了數據點的頻率(例如,取聚類點的平均值,中值等),則意味着,羣集的中值可能變化。
通常情況下,您不希望根據發生任何數據點的可能性來對數據進行聚類。因此,如果任何數據點是多餘的,建議在羣集之前將其刪除。

如果您考慮冗餘屬性(即共同相關屬性),它可能會或可能不會影響聚類。取決於數據集的領域。

無關屬性
以消極的方式這也影響羣集。由於不相關的屬性,聚類可能不會收斂。事實上,有時不相關的屬性被認爲是噪聲。此外,更高的維度來自維度的詛咒。所以經常建議在聚類之前進行降維。

一些細節:
Clustering high dimensional data
Effect of irrelevant attribute on fuzzy clustering