2016-09-12 56 views
0

有人可以幫我解決這個問題嗎?KMeans聚類爲以下混合可變數據

我正在學習KMeans聚類概念。如果變量是連續的,我知道如何聚類。但是這個數據集包含分類/離散變量,如性別和郵政編碼。

Sno Age Gender Zip Salary 
1 26 0 9822 100 
2 38 1 9822 700 
3 19 1 9822 100 
4 64 0 9810 2500  
5 53 1 9810 1200 
6 75 1 9810 1800 
7 19 0 9822 75 
8 36 1 9822 350 
9 42 1 9875 1800 
10 41 0 9875 750 

回答

0

K-Means僅適用於數值數據。

K-means對分類數據失敗,因爲採用分類數據的均值根本沒有意義。距離也沒有。有些人使用一種熱門編碼在K-means上運行數據。但是這也不能給出正確的集羣。

要解決這類問題,您可以查看K-Means的另一種變體,稱爲K-Prototype算法,該算法適用於分類和數值數據的混合。

退房https://pypi.python.org/pypi/kmodes/

此鏈接包含紙漿和Python包使用這種算法。這也很容易理解。