2014-02-06 43 views
0

我知道Knn有一個問題在處理高維數據時知道「維度的詛咒」,它的理由是它包含計算距離時的所有特徵,即歐氏距離,其中非重要特徵充當噪聲並偏向結果,但是我不明白幾件事情距離度量度量對K近鄰維數的影響?

1)餘弦距離度量如何受這個維度問題的影響,即我們將餘弦距離定義爲cosDistance = 1- cosSimilarity其中cosSimilarity對於高維數據是有利的,所以餘弦距離可能如何受到維度問題的詛咒?

2)我們可以給weka指定任何權重,或者我可以將特徵選擇應用到KNN本地嗎?局部到knn意味着我編寫自己的K-NN類,其中在分類i中首先將訓練實例轉換爲較低維度,然後計算測試實例鄰居?

回答

2

餘弦與歐幾里得距離沒有根本的區別。

事實上,對於歐幾里德長度爲1的歸一化數據,餘弦和歐幾里德距離是一樣的。換句話說,餘弦正在計算L2歸一化矢量上的歐氏距離...

因此,餘弦不比維數的歐氏距離更強壯。然而,餘弦在例如文本數據具有較高的表觀維度 - 通常爲數千個維度 - 但維度的內在維度必須低得多。另外,它主要用於排名;實際距離值被忽略。