0
我試圖創建一個數據集相當不同的國家集羣(我的國家數據從中位數年齡到可支配收入,包括教育水平)。我應該爲多維數據集使用哪種聚類方法?
我該如何解決這個問題?
我讀了一些關於聚類的有趣論文,例如使用K-means,但似乎這些算法主要用於有兩組變量,而不是像我的情況那樣,並且變量可比較時可能試圖將數據中的這種多樣性的國家聚集在一起)。
我應該規範化一些數據嗎?我應該只關注較少的指標以避免這個多維度問題?首先使用譜聚類?
非常感謝支持!
感謝您的回覆。所有的數據確實是定量的。 – PixAndCo
想要添加詳細信息...因此,我應該先將所有內容標準化,然後查找相似性度量標準?我不明白的是我會將30個左右的指標歸一化,但在這種情況下如何計算相似性度量?我需要爲每個指標計算每個指標的相關指標嗎?所以我需要做30 * 29 *次?還是有什麼我在這裏失蹤?對不起,如果這是一個初學者的問題,我已經完成了計量經濟學和統計,但不久前:-)我會研究層次聚類,謝謝! – PixAndCo
這些方法是分開的。無論是打造「相似性度量」,這是類似於「給體重2.0〜收入,5.0教育,1.5到中年」等,但也可以做這樣的事情「忽略這兩個最極端的差異」。所以函數是「相似度(countrya,countryb)」,如果兩個國家相同,則返回0.0,如果它們沒有任何共同點,則返回高價值。或者使用特徵向量(有時稱爲主要組件)方法。 –