2016-10-17 118 views
2

我使用HMeasure包在涉及信用風險的分析中涉及LDA。我有11000個obs,我選擇年齡和收入來開發分析。我不知道如何解釋LDA的R結果。所以,我不知道我是否根據信用風險選擇了最佳變量。 我在代碼下面給你看。LDA解釋

lda(default ~ ETA, data = train) 

Prior probabilities of groups: 
       0         1 
0.4717286 0.5282714 

Group means: 
      ETA 
0 34.80251 
1 37.81549 

Coefficients of linear discriminants: 
         LD1 
ETA 0.1833161 

lda(default~ ETA + Stipendio,  train) 

Call: 
lda(default ~ ETA + Stipendio, data = train) 

Prior probabilities of groups: 
       0         1 
0.4717286 0.5282714 

Group means: 
      ETA Stipendio 
0 34.80251  1535.531 
1 37.81549  1675.841 

Coefficients of linear discriminants: 
                 LD1 
ETA       0.148374799 
Stipendio 0.001445174 

lda(default~ ETA, train) 
ldaP <- predict(lda, data= test) 

其中ETA =年齡和STIPENDIO =收入

非常感謝!

回答

1

LDA使用每個類的均值和方差來創建它們之間的線性邊界(或分離)。這個邊界由係數限定。

您有兩種不同的型號,一種取決於變量ETA,另一種取決於ETAStipendio

您可以看到的第一件事是Prior probabilities of groups。這些概率是您的訓練數據中已經存在的概率。即47.17%的訓練數據對應的信用風險評估爲0,52.82%的訓練數據對應的信用風險評估爲1.(我假設0代表「無風險」,1代表「有風險」)。這兩種模型的概率是相同的。

您可以看到的第二件事是組意味着每個類中每個預測變量的平均值。這些值可能表明變量ETA可能對風險信用(37.8154)的影響稍大於對非風險信用(34.8025)的影響。在第二個模型中,變量Stipendio也會發生這種情況。

第一個模型中ETA的計算係數爲0.1833161。這意味着,兩個不同的類之間的邊界將通過下式指定:

y = 0.1833161 * ETA 

這可以表示由以下linex表示可變ETA)。信貸風險0或1將根據其所在行的哪一側進行預測。

enter image description here

你的第二個模型包含兩個因變量,ETAStipendio,使階層之間的邊界將通過這個公式來界定:

y = 0.148374799 * ETA + 0.001445174 * Stipendio 

正如你可以看到,這個公式表示plane 。 (x1代表ETAx2代表Stipendio)。和以前的模型一樣,這個平面代表了有風險的信用和非風險信用之間的差異。

enter image description here

在第二個模型中,ETA係數遠遠大於該Stipendio係數,這表明前者變量對信用風險程度比後來的變量更大的影響。

我希望這會有所幫助。