2017-02-24 69 views
1

在PST包中,我們使用值C作爲用於修剪樹的信息增益函數的臨界值。該C值,0.05的α的計算方法如下:alpha在信息增益修剪功能的上下文中是什麼意思?

C95 <- qchisq(0.95, 1)/2 

是什麼意思的是,C值是基於0.05的α?這是否意味着我們需要至少95%確定附加節點與以前的節點相比添加了更多信息,才能通過修剪算法保留它?

回答

1

您的問題涉及在prune函數中使用gain="G2",並且關於此增益函數的閾值C的選擇。

用於檢查分支是否可以修剪的G2增益函數的兩倍實際上是似然比檢驗統計量,該統計量比較樹在修剪分支之前和之後的可能性。在測試分支不添加任何信息的假設下,統計學2 * G2具有卡方分佈。因此,當差異不具有統計顯着性時,即只要G2值不超過給定顯着性水平的閾值,就修剪分支。

alpha是統計測試中常用的重要性級別。它通常是1%或5%。選擇α= 0.05意味着由於樣本的隨機性,有5%的機會錯誤地不修剪分支。

相關問題