請針對以下聚類問題編碼數據。 我有一個包含汽車使用信息的數據集。數據集有以下幾個字段: 1.汽車模型(豐田Celica,寶馬,日產X-Trail,馬自達科斯莫等) 2.建成年份 3.汽車運行的國家 4.專業之前駕駛的距離維修使用固定組件和連續組件對稀疏向量進行聚類
重要提示:上述數據集是稀疏。 在大多數情況下,對於給定的汽車,「距離」並不是所有國家都知道的。
問題: 對於給定的汽車,預測「距離」將在「距離」未知的國家進行大修之前運行。
我的方法: 我想將數據集中的每條記錄表示爲具有以下組件的稀疏向量: 1.二進制(1/0)汽車模型組件。這些組件的數量等於數據集中所有可能模型的數量。 2.二進制(1/0)汽車運行的國家。這些組件的數量等於數據集中所有可能國家的數量。 3.距離。單個整數分量等於汽車行駛的距離。
接着我想簇(k均值)這些載體並分析得到的基團。
問題: 1)在我的向量I混合不同性質的組成部分 - 二進制(模型,國家)和連續(距離)。如何計算矢量之間的分量距離?餘弦相似? 2)使用有限的一組值(模型,國家)對組件進行編碼的其他方法可以很好地處理連續組件(如距離)?
謝謝! 安東