2013-09-25 73 views
0
降維

說我們有一個大尺寸的數據集,我們已經降低了使用PCA較低的尺寸後,這將是明智/精確到然後所述數據使用聚類算法?假設我們不知道有多少集羣期望。聚類數據與PCA

在虹膜數據集使用PCA(與在CSV數據排序,使得所有的第一類的列,則第二,然後第三)產生以下情節: - Ordered data run through PCA

它可以可以看出Iris數據集中的三個類已被保留。然而,當樣品的順序是隨機的,下面的情節產生: - Unordered data run thorough PCA

以上,目前尚不清楚有多少簇/類都包含在數據集中。在這種情況下(更真實的情況),如何識別類的數量,K-Means等聚類算法是否有效?

由於丟棄了低階主成分,會不會有遺傳嗎?

編輯: - 要清楚,我問,如果一個數據集可以在運行PCA後進行聚類,如果是這樣,最準確的方法是什麼。

+0

你究竟繪製了什麼?前段時間我繪製了虹膜的PCA,在前兩個縮小的維度(包含最多的變化)中,可見的是這些簇。 –

+0

嗨,我正在繪製第一個主成分本徵向量和原始(零均值)數據集的乘積。 –

+0

製作直方圖,而不是隻繪製點。 –

回答

1

說我們有一個大的尺寸,這我們已經降低了使用PCA較低 維度的數據集,會是明智的/準確的,然後使用聚類 算法對上述數據?假設我們不知道有多少簇到 期望。

您的數據可能在低方差尺寸以及分離。我不建議在集羣之前運行PCA。

上面,不清楚數據集 集中包含多少個集羣/類。在這種情況下(更真實的情況),如何識別類別數量,K-Means等聚類算法是否有效?

有一些有效的聚類算法,不需要事先知道類的數量,例如Mean Shift和DBSCAN。

0

嘗試對PCA後的數據集進行排序,然後繪製它。

虹膜數據集是非常簡單的得出關於高維數據的行爲的任何有效的結論,以及PCA的好處。

另外,「明智」 - 在哪個意義上?如果你想吃披薩,繪製虹膜數據集是不明智的。

+0

但是在訂單未知的情況下會發生什麼?明智/準確 - 是否會產生數據的正確表示。 –

+0

在第一維中按**值**排序,而不是按原始順序排列,結果會更好! 定義「正確的表示」。在實際數據中沒有「正確」的東西。 –