1
在PST包中,我們使用值C
作爲用於修剪樹的信息增益函數的臨界值。該C
值,0.05的α的計算方法如下:alpha在信息增益修剪功能的上下文中是什麼意思?
C95 <- qchisq(0.95, 1)/2
是什麼意思的是,C
值是基於0.05的α?這是否意味着我們需要至少95%確定附加節點與以前的節點相比添加了更多信息,才能通過修剪算法保留它?
在PST包中,我們使用值C
作爲用於修剪樹的信息增益函數的臨界值。該C
值,0.05的α的計算方法如下:alpha在信息增益修剪功能的上下文中是什麼意思?
C95 <- qchisq(0.95, 1)/2
是什麼意思的是,C
值是基於0.05的α?這是否意味着我們需要至少95%確定附加節點與以前的節點相比添加了更多信息,才能通過修剪算法保留它?
您的問題涉及在prune
函數中使用gain="G2"
,並且關於此增益函數的閾值C
的選擇。
用於檢查分支是否可以修剪的G2增益函數的兩倍實際上是似然比檢驗統計量,該統計量比較樹在修剪分支之前和之後的可能性。在測試分支不添加任何信息的假設下,統計學2 * G2具有卡方分佈。因此,當差異不具有統計顯着性時,即只要G2值不超過給定顯着性水平的閾值,就修剪分支。
alpha是統計測試中常用的重要性級別。它通常是1%或5%。選擇α= 0.05意味着由於樣本的隨機性,有5%的機會錯誤地不修剪分支。