這是我第一次嘗試使用Python和Sci-Kit Learn進行K-Means聚類,並且我不知道如何對最終聚類圖做出什麼或者如何微調我的K均值聚類算法。當我只是獲取行集羣時,如何優化K意味着集羣?
我的最終目標是找到劃分一些有趣或有用的行爲特徵的用戶類別的聚類。
未遂1:
輸入:性別,年齡範圍,國家(全一熱編碼,因爲數據是分類),和帳戶年齡(以周齡數值)
代碼:
# Convert DataFrame to matrix
mat2 = all_dummy.as_matrix()
# Using sklearn
km2 = sklearn.cluster.KMeans(n_clusters=6)
km2.fit(mat2)
# Get cluster assignment labels
labels2 = km2.labels_
# Format results as a DataFrame
results2 = pd.DataFrame([all_dummy.index,labels2]).T
plot_x2 = results2[0].tolist()
plot_y2 = results2[1].tolist()
pyplot.scatter(plot_x2,plot_y2)
pyplot.show()
簡介:
具體的問題:
- 這是什麼圖形的X軸和Y軸?
- 這張圖甚至告訴我什麼?
- 爲什麼只有3個集羣出現時,我把6個集羣作爲輸入? (通過第一條評論和更新的代碼和圖形回答)
- 如果我不知道我在找什麼樣的關係是什麼,我該如何微調這個圖表來告訴我更多,並向我展示一種有用的關係?