-1

如果我有如下的數據:如何給權重到值,而計算的相似性/ disimilarities

Empid Salary Age Experience 

1  25000 24 4 
2  40000 27 5 
3  55000 32 7 
4  27000 25 5 
5  53000 30 5 

,如果我正常化使用最小 - 最大歸一化技術,因此所有上述的值的所有值位於0之間和1得到以下標準化數據:

Empid Salary  Age  Experience 
1  0.0000333  0.1000000 0.2000000 
2  0.5000000  0.4000000 0.4000000 
3  1.0000000  0.9000000 0.8000000 
4  0.0700000  0.2000000 0.4000000 
5  0.9300000  0.7000000 0.4000000 

如果我們計算每個員工與其他員工的歐氏距離,它在下表中給出。

歐氏距離正常化後

1   2   3   4   5 
1 0.0000000 0.6164144 1.4141664 0.2333321 1.1273841 
2 0.6164144 0.0000000 0.8123833 0.4772345 0.5270225 
3 1.4141664 0.8123833 0.0000000 1.2332863 0.4521547 
4 0.2333321 0.4772345 1.2332863 0.0000000 1.0005054 
5 1.1273841 0.5270225 0.4521547 1.0005054 0.0000000 

我的問題是,我們能給予的權重而計算的相似之處/ disimilarities。例如:我想給予年齡變量更多的權重,因爲它可能是一個強有力的預測指標。你能否提供你對這種情況的建議?

什麼是使用於其他

給予更多的權重,以一個屬性請告知

感謝的技術!

回答

1

正常化=功能加權

至少當我們談論線性正常化和特徵加權。

如果您希望將「年齡」屬性的權重增加一倍,請將其歸一化爲[0; 2],而不是[0; 1]。

是的,就是這麼簡單。

或使用常規的加權歐幾里得距離之後向量上。但在正常化過程中這樣做更便宜。

+0

Gotcha!只是爲了讓我知道,所以如果我決定使用餘弦相似性來尋找相似性......而不是歐氏距離,就像在上面的例子中一樣,只是好奇地想知道如果我決定權向量的後綴而不是可用的技術,而不是正常化期間 – Rookie 2014-10-05 21:35:34

+0

同樣的事情。只要看看方程。 – 2014-10-06 00:29:47