如何給權重到值，而計算的相似性/ disimilarities

-1

如果我有如下的數據：如何給權重到值，而計算的相似性/ disimilarities

Empid Salary Age Experience 

1  25000 24 4 
2  40000 27 5 
3  55000 32 7 
4  27000 25 5 
5  53000 30 5

，如果我正常化使用最小 - 最大歸一化技術，因此所有上述的值的所有值位於0之間和1得到以下標準化數據：

Empid Salary  Age  Experience 
1  0.0000333  0.1000000 0.2000000 
2  0.5000000  0.4000000 0.4000000 
3  1.0000000  0.9000000 0.8000000 
4  0.0700000  0.2000000 0.4000000 
5  0.9300000  0.7000000 0.4000000

如果我們計算每個員工與其他員工的歐氏距離，它在下表中給出。

歐氏距離正常化後

1   2   3   4   5 
1 0.0000000 0.6164144 1.4141664 0.2333321 1.1273841 
2 0.6164144 0.0000000 0.8123833 0.4772345 0.5270225 
3 1.4141664 0.8123833 0.0000000 1.2332863 0.4521547 
4 0.2333321 0.4772345 1.2332863 0.0000000 1.0005054 
5 1.1273841 0.5270225 0.4521547 1.0005054 0.0000000

我的問題是，我們能給予的權重而計算的相似之處/ disimilarities。例如：我想給予年齡變量更多的權重，因爲它可能是一個強有力的預測指標。你能否提供你對這種情況的建議？

什麼是使用於其他

給予更多的權重，以一個屬性請告知

感謝的技術！

來源

2014-10-05 Rookie

正常化=功能加權

至少當我們談論線性正常化和特徵加權。

如果您希望將「年齡」屬性的權重增加一倍，請將其歸一化爲[0; 2]，而不是[0; 1]。

是的，就是這麼簡單。

或使用常規的加權歐幾里得距離之後向量上。但在正常化過程中這樣做更便宜。

來源

2014-10-05 21:19:06

Gotcha！只是爲了讓我知道，所以如果我決定使用餘弦相似性來尋找相似性......而不是歐氏距離，就像在上面的例子中一樣，只是好奇地想知道如果我決定權向量的後綴而不是可用的技術，而不是正常化期間 – Rookie 2014-10-05 21:35:34

同樣的事情。只要看看方程。 – 2014-10-06 00:29:47

如何給權重到值，而計算的相似性/ disimilarities

回答

相關問題