2017-08-15 99 views
0

我想解釋/量化在LDA後獲得的向量的係數。LDA向量係數解釋

比方說,我得到的特徵向量(酉)/得分爲兩類LDA,如:

0.1348 
0.2697 
0.4045 
0.5394 
0.6742 

最後一維是鑑別的能力最重要的,對不對?但是,我可以將其量化爲0.6742^2 /1=0.4545 %,這意味着這個維度對歧視「權力」/能力的45%有貢獻嗎?

0.6742/2.0226=0.3333貢獻33%的歧視「權力」/能力?

或者這兩者都不正確,如果可能的話如何量化。 對不起,如果這是微不足道的,但我還沒有在互聯網上找到明確的答案。

謝謝

圖阿爾

+0

請看我的回答,並告訴我是否清楚 – sera

回答

0

讓我們使用虹膜數據看一個小例子:

import numpy as np 
import matplotlib.pyplot as plt 
from sklearn import datasets 
from sklearn.decomposition import PCA 
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis 

#load iris data 
iris = datasets.load_iris() 
X = iris.data 
y = iris.target 

#create and fit the model 
lda = LinearDiscriminantAnalysis() 
lda.fit(X,y) 

#get the eigenvectors. The expected shape is [number of features, number of classes - 1] 
lda.scalings_ 

結果

array([[-0.81926852, 0.03285975], 
     [-1.5478732 , 2.15471106], 
     [ 2.18494056, -0.93024679], 
     [ 2.85385002, 2.8060046 ]]) 

正如預期的那樣,我們有4行2列。現在,第一列是第一個線性判別式。您看到的值-0.8192對應於對應特徵對相應線性判別式(-0.8192對應於LD1)的影響。

因此,絕對值越高,特徵對LD的影響就越大。


在更深入:第一行中,我們有:-0.81926852,0.03285975。這意味着第一個LD(LD1)的第一個特徵(本例中的萼片長度(cm))的影響比第二個LD(LD2)上的相同特徵的影響要高。

希望這會有所幫助。