說我們有一個大尺寸的數據集,我們已經降低了使用PCA較低的尺寸後,這將是明智/精確到然後所述數據使用聚類算法?假設我們不知道有多少集羣期望。聚類數據與PCA
在虹膜數據集使用PCA(與在CSV數據排序,使得所有的第一類的列,則第二,然後第三)產生以下情節: -
它可以可以看出Iris數據集中的三個類已被保留。然而,當樣品的順序是隨機的,下面的情節產生: -
以上,目前尚不清楚有多少簇/類都包含在數據集中。在這種情況下(更真實的情況),如何識別類的數量,K-Means等聚類算法是否有效?
由於丟棄了低階主成分,會不會有遺傳嗎?
編輯: - 要清楚,我問,如果一個數據集可以在運行PCA後進行聚類,如果是這樣,最準確的方法是什麼。
你究竟繪製了什麼?前段時間我繪製了虹膜的PCA,在前兩個縮小的維度(包含最多的變化)中,可見的是這些簇。 –
嗨,我正在繪製第一個主成分本徵向量和原始(零均值)數據集的乘積。 –
製作直方圖,而不是隻繪製點。 –