2013-08-18 85 views
7

我試圖用matplotlib.mlab.PCA做一個簡單的主成分分析,但是使用該類的屬性我無法獲得我的問題的乾淨解決方案。這裏有一個例子:使用matplotlib的PCA的基本示例

在2D獲得一些虛擬數據,並啓動PCA:

from matplotlib.mlab import PCA 
import numpy as np 

N  = 1000 
xTrue = np.linspace(0,1000,N) 
yTrue = 3*xTrue 

xData = xTrue + np.random.normal(0, 100, N) 
yData = yTrue + np.random.normal(0, 100, N) 
xData = np.reshape(xData, (N, 1)) 
yData = np.reshape(yData, (N, 1)) 
data = np.hstack((xData, yData)) 
test2PCA = PCA(data) 

現在,我只想得到主成分爲載體在我原來的座標,並畫出他們爲箭頭到我的數據。

什麼是快捷方式到達那裏?

感謝,Tyrax

回答

22

我不認爲mlab.PCA類是適合你想要做什麼。

a = self.center(a) 
U, s, Vh = np.linalg.svd(a, full_matrices=False) 

center方法除以sigma

def center(self, x): 
    'center the data using the mean and sigma from training set a' 
    return (x - self.mu)/self.sigma 

這導致本徵向量,pca.Wt,像這樣:

[[-0.70710678 -0.70710678] 
[-0.70710678 0.70710678]] 
特別地, PCA類找到特徵向量之前重新調整所述數據

它們是垂直的,但與原始數據的主軸不直接相關。它們是關於按摩數據的主要軸。

也許它可能是更容易的代碼,你直接想要什麼(不使用mlab.PCA類):

import numpy as np 
import matplotlib.pyplot as plt 

N = 1000 
xTrue = np.linspace(0, 1000, N) 
yTrue = 3 * xTrue 
xData = xTrue + np.random.normal(0, 100, N) 
yData = yTrue + np.random.normal(0, 100, N) 
xData = np.reshape(xData, (N, 1)) 
yData = np.reshape(yData, (N, 1)) 
data = np.hstack((xData, yData)) 

mu = data.mean(axis=0) 
data = data - mu 
# data = (data - mu)/data.std(axis=0) # Uncommenting this reproduces mlab.PCA results 
eigenvectors, eigenvalues, V = np.linalg.svd(data.T, full_matrices=False) 
projected_data = np.dot(data, eigenvectors) 
sigma = projected_data.std(axis=0).mean() 
print(eigenvectors) 

fig, ax = plt.subplots() 
ax.scatter(xData, yData) 
for axis in eigenvectors: 
    start, end = mu, mu + sigma * axis 
    ax.annotate(
     '', xy=end, xycoords='data', 
     xytext=start, textcoords='data', 
     arrowprops=dict(facecolor='red', width=2.0)) 
ax.set_aspect('equal') 
plt.show() 

enter image description here

+0

很好,謝謝。這就是我一直在尋找的。 – Tyrax

+0

1.618常數的含義是什麼?它來自哪裏? – joaquin

+1

@joaquin:它近似於[黃金比例](http://en.wikipedia.org/wiki/Golden_ratio)。當然,你可以選擇你喜歡的任何常數,但它[通常看起來不錯](http://en.wikipedia.org/wiki/Golden_ratio#Painting)。 – unutbu