0
數據集由N個元素和K個變量組成。使用PCA我可以減少變量的數量,但是如何檢查提供最多信息的變量K?使用PCA的特徵選擇
例如,我有數據設置是這樣的:
1 1 1 2
2 2 1 4
3 3 2 11
1 1 2 7
2 2 3 14
3 3 3 16
1 1 4 17
2 2 4 19
3 3 3 16
我知道第一列是相同的像第2和第4列是通過關係式確定:2 *第一+ 5 *第三-5。因此,第1欄和第3欄提供的信息最多,其餘部分不提供任何其他信息。但是如何使用PCA來計算這個值呢?
你能寫出Matlab代碼來獲得這個矩陣嗎? – veeveeoor
我沒有MatLab本身,但是pca()/ princomp()從原始數據集計算組件,而pcacov()將(對稱正半定)協方差矩陣作爲輸入。 – jayprich
看着SciLab等價物,我認爲這些將計算一個樣本協方差矩陣,並分別報告矢量和因子。我的矩陣是x'* x的一個因子分解矩陣,相當於人口協方差的4x4矩陣。 對於這樣的退化情況,可能值得探討奇異值分解或近似,這些也可用並可以返回等級。 – jayprich