2015-05-18 104 views
2

我曾嘗試閱讀大量有關PCA的參考文獻,並發現其差異。一些參考寫道這種算法:主成分分析(PCA)算法

  1. 準備初始數據(MXN)
  2. 計算平均值
  3. 與平均
  4. 計算的協方差
  5. 計算特徵值和特徵向量
  6. 減去初始數據
  7. 結果數據轉換(mxk)

個幾個其他參考文獻寫該算法:

  1. 準備初始數據(MXN)
  2. 計算平均
  3. 計算標準偏差
  4. 計數z得分=((初始數據 - 平均值) /標準偏差)
  5. 計算協方差
  6. 計算本徵值和本徵向量
  7. 結果數據轉換(MXK)

我很困惑哪一個是正確的算法。任何人都可以解釋何時使用這些算法?

感謝您的幫助

回答

2

從我看到了你的算法列表之間的唯一區別是用標準差正常化。這是一個標準的做法,它確保具有不同「範圍」的值被重新縮放到相似的範圍。如果您的數據的縮放比例相似,則此步驟不是絕對必要的。你可以在這裏找到更深入的討論:https://stats.stackexchange.com/questions/134104/why-do-we-divide-by-the-standard-deviation-and-not-some-other-standardizing-fact

舉一個這樣的縮放問題的例子,我們可以想象每個維度描述不同質量的多維數據。例如,第一維可以描述與某個物體的距離,單位爲mm,範圍從1000-3000,而其他維度則將物體顏色的R,G和B分量描述爲從0.0到1.0的浮點值。爲了確保每個維度具有相似的「影響力」,我們將其除以標準偏差。

+0

對不起,我是PCA的新手。 「數據同樣縮放」的含義是什麼?你能給我一個簡單的例子嗎?我已閱讀你的鏈接,但我沒有得到的點 – vaariz

+0

請看上面的例子。 –

+0

非常感謝您的回答,現在很清楚 – vaariz