Q

如何處理K平均值算法中每個座標值的不同標度值？

2017-06-17 22 views -1 likes

-1

我正在練習使用python的K-means。我正在處理一組購物數據，並且輸入數據集看起來像這樣。如何處理K平均值算法中每個座標值的不同標度值？

輸入表頭：

[用戶ID]
[money_spent_on_clothes]詮釋
[money_spent_on_food] INT
[money_spent_on_shoes] INT
[money_spent_on_Monday] INT
[money_spent_on_Tuesday ] int
[money_spent_on_We dnesday] INT
[money_spent_on_Thursday] INT
[money_spent_on_Friday]詮釋
[shopping_hours_am] INT
[shopping_hours_pm] INT

我想使用他們花多少錢在每個類別中，有什麼當他們購物最多時，他們在購物時花費多少時間在購物時考慮到羣集用戶。

數據集中幾乎沒有差異。

單位不匹配：$主場迎戰小時
特徵類型混合。前三個功能是關於類別，接下來的5個功能是關於一週中的哪一天，最後兩個功能是他們在一天中的花費時間（上午和下午）。

我想知道如果K-均值聚類可以對這個數據集進行&功能我已經指出，如果是可以做到的，什麼樣的正常化必須以這個工作應用？

在此先感謝！

2017-06-17 2D_

+0

正常情況下，縮放是在每列的基礎上完成的，所以沒有什麼可擔心的。或者你有其他想法。你是否從scikit-learn中嘗試過StandardScaler？ –

+0

謝謝。我會嘗試Standardscaler。我很高興知道，只要按比例縮放，具有上述不同類型的功能就沒有問題。 –

A

回答

1

您可以使用Mahalanobis Distance，並且由於它的屬性，可以很容易地使用任何歐幾里德驅動的K-Means算法（將其用作黑盒子）。

2017-07-22 10:26:07 Royi

+0

謝謝！我會仔細看看的：） –

相關問題