假設我們有人員列表,並希望找到像人X
這樣的人。部分未知矢量的最近鄰居
特徵向量有3個項目[weight, height, age]
,我們列表中有3個人。請注意,我們不知道人的身高C。
A: [70kg, 170cm, 60y]
B: [60kg, 169cm, 50y]
C: [60kg, ?, 50y]
什麼是最好的方式找人最接近某甲?
我的猜測
計算一下平均高度值,並用它來代替未知值。
因此,假設我們計算出170cm
是身高的平均值,並且將人C
重新定義爲[60kg, ~170cm, 50y]
。
現在我們可以找到最接近A的人,它會是A, C, B
。
問題
現在的問題是,我們把C
與猜測~170cm
比前B
已知169cm
。
它有點感覺不對。我們人類比機器更聰明,並且知道C
幾乎不可能是170cm
。所以,最好把169cm
的B放在C
之前。
但是我們該如何計算懲罰?(最好在簡單的經驗算法)我們應該以某種方式懲罰具有未知值的向量?並通過多少(也許計算每兩個人的高度之間的平均差異)?
怎麼會是penalisation看起來像在一般情況下,當特徵向量的尺寸爲N
,它有K
知名項目和U
未知(K + U = N
)?
好主意與比例!謝謝! –