0

我想使用KMeans聚類算法分析配置文件數據。示例數據的格式爲:聚類算法的功能縮放(規範化)(如Kmeans&EM)

Features: name ISBN  Date    ID  price .... 
      'A' '31NDB' '05/18/2014' 'CBDDN' 12.00 
      'B' '3241B' '08/19/2012/ 'ABCDE' 33.08 

這些僅僅是示例,實際數據不一定是這種格式。但是如果需要對這組數據應用聚類算法,那麼特徵縮放又如何可以規範化部分呢?我應該如何處理字符串值和日期值以及價格(雙倍)值?這些值之間是否存在關係?我很困惑...

任何想法?

回答

1

K均值和EM值爲數字僅用於數據。

將它們應用於名稱/日期/價格類型的數據沒有多大意義。

顧名思義,該算法需要計算均值。你如何計算你的「名稱」列中的平均值?你可以砍掉日期的某些東西,但不能用於名稱。

工作錯誤的工具。

+0

那麼應該是什麼工具?對於非數字數據?假設我想將類似的書分組在一起?或者,假設我正在分析服務器日誌文件.... – JudyJiang 2014-10-31 11:24:27

+0

使用例如主題建模,這些主題建模旨在處理稀疏的文本數據,並根據是否存在單詞重疊功能。 – 2014-10-31 17:30:12

0

您必須將非數字特徵編碼爲數字。分類或序數特徵就是這種情況。此外,如果某些功能對您的分析不重要,請考慮將它們丟棄。例如,如果您嘗試集羣圖書,則購買日期可能不重要(或者可能是,取決於您所關注的內容),因此添加日期無效。例如,你可以將它編碼爲3個變量[1,0,0],[0,1,0],[0,0,1],或者將其編碼爲3個變量作爲2個變量[0,0],[1,0],[0,1]。 關於這個here有更多的討論。

請注意,由於您的KMeans/GMM(因爲您避開EM)將計算點之間的距離,所以正確的編碼尤爲重要。瞭解它們的含義,尤其是在使用不同的功能規範化方案時,並嘗試使用不同的功能來查看結果。

+0

所以我必須將這些值(以某種方式)轉換爲數值?說,日期---日期號,和名稱字符串---(使用一些函數..)並且還找到它們之間的關係..? – JudyJiang 2014-10-31 11:25:51

+0

對不起,我可能沒有什麼意義,新的機器學習..有什麼方法或來源,我可以讀?謝謝! – JudyJiang 2014-10-31 11:26:24