-1

我正在練習使用python的K-means。 我正在處理一組購物數據,並且輸入數據集看起來像這樣。如何處理K平均值算法中每個座標值的不同標度值?

輸入表頭:

  • [用戶ID]
  • [money_spent_on_clothes]詮釋
  • [money_spent_on_food] INT
  • [money_spent_on_shoes] INT
  • [money_spent_on_Monday] INT
  • [money_spent_on_Tuesday ] int
  • [money_spent_on_We dnesday] INT
  • [money_spent_on_Thursday] INT
  • [money_spent_on_Friday]詮釋
  • [shopping_hours_am] INT
  • [shopping_hours_pm] INT

我想使用他們花多少錢在每個類別中,有什麼當他們購物最多時,他們在購物時花費多少時間在購物時考慮到羣集用戶。

數據集中幾乎沒有差異。

  • 單位不匹配:$主場迎戰小時
  • 特徵類型混合。前三個功能是關於類別,接下來的5個功能是關於一週中的哪一天,最後兩個功能是他們在一天中的花費時間(上午和下午)。

我想知道如果K-均值聚類可以對這個數據集進行&功能我已經指出,如果是可以做到的,什麼樣的正常化必須以這個工作應用?

在此先感謝!

+0

正常情況下,縮放是在每列的基礎上完成的,所以沒有什麼可擔心的。或者你有其他想法。你是否從scikit-learn中嘗試過StandardScaler? –

+0

謝謝。我會嘗試Standardscaler。我很高興知道,只要按比例縮放,具有上述不同類型的功能就沒有問題。 –

回答

1

您可以使用Mahalanobis Distance,並且由於它的屬性,可以很容易地使用任何歐幾里德驅動的K-Means算法(將其用作黑盒子)。

+0

謝謝!我會仔細看看的 :) –