2017-02-04 55 views
0

我想在我的數據集上運行聚類算法。我的數據集是一組數據包(源IP,目的地,端口,類標籤)。我想將這些數據從名義數據轉換爲數字數據。什麼是適當的技術來轉換這些數據?將標稱轉換爲數字數據?

回答

0

通常的做法是執行一個熱門編碼。雖然這顯然是對數據進行數字編碼,但它帶來了一些問題。

  1. 增加了維度。這通常會導致可擴展性和歧視問題(點之間的距離變得太相似)
  2. 規範化和加權問題。典型正常化策略,如最小 - 最大定標和標準化根據需要不工作」
  3. 相關屬性
  4. 處理的新屬性的值
  5. 的變量將是離散的。許多算法如k-means要求連續屬性才能正常工作。
  6. 解釋問題。例如。一個集羣中心通常不會以有意義的方式映射回原始空間。