聚類算法的功能縮放（規範化）（如Kmeans＆EM）

我想使用KMeans聚類算法分析配置文件數據。示例數據的格式爲：聚類算法的功能縮放（規範化）（如Kmeans＆EM）

Features: name ISBN  Date    ID  price .... 
      'A' '31NDB' '05/18/2014' 'CBDDN' 12.00 
      'B' '3241B' '08/19/2012/ 'ABCDE' 33.08

這些僅僅是示例，實際數據不一定是這種格式。但是如果需要對這組數據應用聚類算法，那麼特徵縮放又如何可以規範化部分呢？我應該如何處理字符串值和日期值以及價格（雙倍）值？這些值之間是否存在關係？我很困惑...

任何想法？

來源

2014-10-31 JudyJiang

K均值和EM值爲數字僅用於數據。

將它們應用於名稱/日期/價格類型的數據沒有多大意義。

顧名思義，該算法需要計算均值。你如何計算你的「名稱」列中的平均值？你可以砍掉日期的某些東西，但不能用於名稱。

工作錯誤的工具。

來源

2014-10-31 02:58:17

那麼應該是什麼工具？對於非數字數據？假設我想將類似的書分組在一起？或者，假設我正在分析服務器日誌文件.... – JudyJiang 2014-10-31 11:24:27

使用例如主題建模，這些主題建模旨在處理稀疏的文本數據，並根據是否存在單詞重疊功能。 – 2014-10-31 17:30:12

您必須將非數字特徵編碼爲數字。分類或序數特徵就是這種情況。此外，如果某些功能對您的分析不重要，請考慮將它們丟棄。例如，如果您嘗試集羣圖書，則購買日期可能不重要（或者可能是，取決於您所關注的內容），因此添加日期無效。例如，你可以將它編碼爲3個變量[1,0,0]，[0,1,0]，[0,0,1]，或者將其編碼爲3個變量作爲2個變量[0,0]，[1,0]，[0,1]。關於這個here有更多的討論。

請注意，由於您的KMeans/GMM（因爲您避開EM）將計算點之間的距離，所以正確的編碼尤爲重要。瞭解它們的含義，尤其是在使用不同的功能規範化方案時，並嘗試使用不同的功能來查看結果。

來源

2014-10-31 07:47:55 lightalchemist

所以我必須將這些值（以某種方式）轉換爲數值？說，日期---日期號，和名稱字符串---（使用一些函數..）並且還找到它們之間的關係..？ – JudyJiang 2014-10-31 11:25:51

對不起，我可能沒有什麼意義，新的機器學習..有什麼方法或來源，我可以讀？謝謝！ – JudyJiang 2014-10-31 11:26:24

聚類算法的功能縮放（規範化）（如Kmeans＆EM）

回答

相關問題