2016-10-12 27 views
0

我試圖創建一個數據集相當不同的國家集羣(我的國家數據從中位數年齡到可支配收入,包括教育水平)。我應該爲多維數據集使用哪種聚類方法?

我該如何解決這個問題?

我讀了一些關於聚類的有趣論文,例如使用K-means,但似乎這些算法主要用於有兩組變量,而不是像我的情況那樣,並且變量可比較時可能試圖將數據中的這種多樣性的國家聚集在一起)。

我應該規範化一些數據嗎?我應該只關注較少的指標以避免這個多維度問題?首先使用譜聚類?

非常感謝支持!

回答

0

創建一個「相似性度量」。可能只是衡量所有測量結果的一個重要因素,但是您可以根據種羣大小等進行修正。那麼你只能擁有數百個國家,所以大部分暴力方法都可以使用。分層聚類是我的第一個調用點,它會告訴你數據是否固有聚集。

如果所有數據都是定量的,可以在0 - 1(最低的國家是0,最高的是1)進行歸一化,然後取特徵向量。然後繪製出本徵空間中的前兩個軸。這將對羣集提供另一種視覺修正。

但是,如果沒有聚集,最好承認這一點。

+0

感謝您的回覆。所有的數據確實是定量的。 – PixAndCo

+0

想要添加詳細信息...因此,我應該先將所有內容標準化,然後查找相似性度量標準?我不明白的是我會將30個左右的指標歸一化,但在這種情況下如何計算相似性度量?我需要爲每個指標計算每個指標的相關指標嗎?所以我需要做30 * 29 *次?還是有什麼我在這裏失蹤?對不起,如果這是一個初學者的問題,我已經完成了計量經濟學和統計,但不久前:-)我會研究層次聚類,謝謝! – PixAndCo

+0

這些方法是分開的。無論是打造「相似性度量」,這是類似於「給體重2.0〜收入,5.0教育,1.5到中年」等,但也可以做這樣的事情「忽略這兩個最極端的差異」。所以函數是「相似度(countrya,countryb)」,如果兩個國家相同,則返回0.0,如果它們沒有任何共同點,則返回高價值。或者使用特徵向量(有時稱爲主要組件)方法。 –

相關問題