-1
我正在練習使用python的K-means。 我正在處理一組購物數據,並且輸入數據集看起來像這樣。如何處理K平均值算法中每個座標值的不同標度值?
輸入表頭:
- [用戶ID]
- [money_spent_on_clothes]詮釋
- [money_spent_on_food] INT
- [money_spent_on_shoes] INT
- [money_spent_on_Monday] INT
- [money_spent_on_Tuesday ] int
- [money_spent_on_We dnesday] INT
- [money_spent_on_Thursday] INT
- [money_spent_on_Friday]詮釋
- [shopping_hours_am] INT
- [shopping_hours_pm] INT
我想使用他們花多少錢在每個類別中,有什麼當他們購物最多時,他們在購物時花費多少時間在購物時考慮到羣集用戶。
數據集中幾乎沒有差異。
- 單位不匹配:$主場迎戰小時
- 特徵類型混合。前三個功能是關於類別,接下來的5個功能是關於一週中的哪一天,最後兩個功能是他們在一天中的花費時間(上午和下午)。
我想知道如果K-均值聚類可以對這個數據集進行&功能我已經指出,如果是可以做到的,什麼樣的正常化必須以這個工作應用?
在此先感謝!
正常情況下,縮放是在每列的基礎上完成的,所以沒有什麼可擔心的。或者你有其他想法。你是否從scikit-learn中嘗試過StandardScaler? –
謝謝。我會嘗試Standardscaler。我很高興知道,只要按比例縮放,具有上述不同類型的功能就沒有問題。 –