2012-04-16 117 views
13

我正在使用KNN對手寫數字進行分類。我現在也實施了PCA來降低維度。從256我去了200.但我只注意到,〜0.10%的信息損失。我刪除了56維。不應該損失更大?只有當我下降到5個維度時,我會有20%的損失。這是正常的嗎?PCA和KNN算法

+0

這種事情在許多類型的應用程序中很常見。這就是所謂的收益遞減點。 – 2012-04-16 23:28:11

回答

6

您是說在刪除56個維度後,您幾乎沒有信息?當然,這是PCA的重點!正如其名稱所述,可幫助您確定哪些維度包含這些信息。你可以刪除其餘的,這是最重要的部分。

我想要一些例子,在基因分析中,我已經閱讀過使用PCA將維數從40,000減少到100的論文,然後他們做了一些神奇的東西,並且擁有19個維度的優秀分類器。這隱含地告訴你,當他們移除39'900尺寸時,他們幾乎沒有任何信息!

+2

好的謝謝。我有點新機器學習 – 2012-04-20 00:11:34

0

這很正常,是的(就像Fezvez說的那樣)。你的情況實際上是一個很好的例子,你可以看到這是可能的。看看你的數據(這在機器學習中總是很重要,知道你的數據)。如果您有白色黑色手寫數字的圖像,則所有樣本的某些角落中的像素很有可能是白色的(當我在機器上學習手寫數字時,在一個角落有這種情況)。所以實際上在那個像素中沒有任何信息。如果您將它作爲KNN或ANN或其他任何內容的輸入,您將獲得相同的結果。