我想使用KMeans聚類算法分析配置文件數據。示例數據的格式爲:聚類算法的功能縮放(規範化)(如Kmeans&EM)
Features: name ISBN Date ID price ....
'A' '31NDB' '05/18/2014' 'CBDDN' 12.00
'B' '3241B' '08/19/2012/ 'ABCDE' 33.08
這些僅僅是示例,實際數據不一定是這種格式。但是如果需要對這組數據應用聚類算法,那麼特徵縮放又如何可以規範化部分呢?我應該如何處理字符串值和日期值以及價格(雙倍)值?這些值之間是否存在關係?我很困惑...
任何想法?
那麼應該是什麼工具?對於非數字數據?假設我想將類似的書分組在一起?或者,假設我正在分析服務器日誌文件.... – JudyJiang 2014-10-31 11:24:27
使用例如主題建模,這些主題建模旨在處理稀疏的文本數據,並根據是否存在單詞重疊功能。 – 2014-10-31 17:30:12