2015-09-22 32 views
0

我想使用K-Means算法對我的數據進行聚類,爲此我的數據應該被歸一化我不知道哪種歸一化方法更適合這種算法? (min-max或z轉換或十進制或...)快速礦工標準化數據與z轉換方法,但我怎麼能實現最小最大規範與快速礦工?或哪些工具和方法更適合規範化的數據?我應該檢查我的數據是否需要正常化?怎麼樣?K-Means算法的數據歸一化

回答

0

正常化的正確方法取決於您的數據

作爲一個經驗法則:

  1. 如果所有軸的測量同樣的事情,正常化可能是有害的
  2. 如果軸有不同的單位和規模差別很大,正常化是絕對必要的(否則,你是比較蘋果和橘子)。
  3. 如果您知道或認爲某些屬性比其他屬性更重要,請考慮手動加權屬性。

至於最小最大或z變換:這取決於數據的分佈。 如果你有異常值,min-max不能很好地工作