-1
如果我有如下的數據:如何給權重到值,而計算的相似性/ disimilarities
Empid Salary Age Experience
1 25000 24 4
2 40000 27 5
3 55000 32 7
4 27000 25 5
5 53000 30 5
,如果我正常化使用最小 - 最大歸一化技術,因此所有上述的值的所有值位於0之間和1得到以下標準化數據:
Empid Salary Age Experience
1 0.0000333 0.1000000 0.2000000
2 0.5000000 0.4000000 0.4000000
3 1.0000000 0.9000000 0.8000000
4 0.0700000 0.2000000 0.4000000
5 0.9300000 0.7000000 0.4000000
如果我們計算每個員工與其他員工的歐氏距離,它在下表中給出。
歐氏距離正常化後
1 2 3 4 5
1 0.0000000 0.6164144 1.4141664 0.2333321 1.1273841
2 0.6164144 0.0000000 0.8123833 0.4772345 0.5270225
3 1.4141664 0.8123833 0.0000000 1.2332863 0.4521547
4 0.2333321 0.4772345 1.2332863 0.0000000 1.0005054
5 1.1273841 0.5270225 0.4521547 1.0005054 0.0000000
我的問題是,我們能給予的權重而計算的相似之處/ disimilarities。例如:我想給予年齡變量更多的權重,因爲它可能是一個強有力的預測指標。你能否提供你對這種情況的建議?
什麼是使用於其他
給予更多的權重,以一個屬性請告知
感謝的技術!
Gotcha!只是爲了讓我知道,所以如果我決定使用餘弦相似性來尋找相似性......而不是歐氏距離,就像在上面的例子中一樣,只是好奇地想知道如果我決定權向量的後綴而不是可用的技術,而不是正常化期間 – Rookie 2014-10-05 21:35:34
同樣的事情。只要看看方程。 – 2014-10-06 00:29:47