2017-03-02 24 views
0

我想PCA應用於kaggle的泰坦尼克號dataset對應PCA之間的主成分和原始變量

現在我只是把具有數值列和丟棄NaN值,所以我有五個變量,實際上四個,如果我們忽略依賴變量('生存')。

enter image description here

我有這個加載到數據幀DF,如果我使用了PCA五個部分:

pca_model = PCA(n_components=5) 
pca_model.fit(df) 
pca_model.explained_variance_ratio_ 

[ 9.30197643e-01 6.93699966e-02 2.24377672e-04 1.49076254e-04 
    5.89069784e-05] 

我得到的方差的93%來自於第一個組件。 是否有可能如何從原始變量中獲得相同的值?例如。年齡 - > 0.3的差異 票價 - > 0.6

我現在可以通過每個原始變量給出主要組分的百分比嗎?

回答

1

PCA的每個組件都是所有原始變量的線性組合。您可以使用pca_model.components_觀察不同PCA組件中每個原始變量的作用。

相關問題