0
我想PCA應用於kaggle的泰坦尼克號dataset對應PCA之間的主成分和原始變量
現在我只是把具有數值列和丟棄NaN值,所以我有五個變量,實際上四個,如果我們忽略依賴變量('生存')。
我有這個加載到數據幀DF,如果我使用了PCA五個部分:
pca_model = PCA(n_components=5)
pca_model.fit(df)
pca_model.explained_variance_ratio_
[ 9.30197643e-01 6.93699966e-02 2.24377672e-04 1.49076254e-04
5.89069784e-05]
我得到的方差的93%來自於第一個組件。 是否有可能如何從原始變量中獲得相同的值?例如。年齡 - > 0.3的差異 票價 - > 0.6
我現在可以通過每個原始變量給出主要組分的百分比嗎?