2012-11-14 107 views
0

我有興趣應用Jackknife分析來量化通過邏輯迴歸估計的我的係數的不確定性。我使用glm(family ='binomial'),因爲我的自變量是0 - 1格式。logistic迴歸中的折刀

我的數據集有76000個obs,我使用了7個獨立變量加上一個偏移量。這個想法涉及將數據分成5個隨機子集,然後通過從數據集中一次刪除一個子集來獲得7個估計參數。然後我可以估計參數的不確定性。

我理解的程序,但我無法做到這一點的R.

這是我擬合模型:

glm(f_ocur ~ altitud + UTM_X + UTM_Y + j_sin + j_cos + temp_res + pp + 
      offset(log(1/off)), data = mydata, family = 'binomial') 

沒有人有我怎樣才能使一個想法這可能嗎?

回答

1

Jackknifing邏輯迴歸模型是令人難以置信的低效率。但一個簡單的時間密集型方法將是這樣的:

Formula <- f_ocur~altitud+UTM_X+UTM_Y+j_sin+j_cos+temp_res+pp+offset(log(1/off)) 
coefs <- sapply(1:nrow(mydata), function(i) 
    coef(glm(Formula, data=mydata[-i, ], family='binomial')) 
) 

這是您的假一出係數估計矩陣。該矩陣的協方差矩陣估計參數估計的協方差矩陣。

使用glm的主力功能glm.fit可以顯着改善時間。通過對模型進行線性化,您可以走得更遠(使用一步估計,將Newton Raphson算法中的niter僅限於一次迭代,對於一步估計器使用Jackknife SEs仍然是魯棒的,無偏見的,整個一點...)

+0

您好ashkan,謹慎闡述爲什麼提問者使用jackknifing是一個壞主意? (......在統計小老虎可能理解的水平上)純粹基於效率,還是還有其他原因?我想同樣必須適用於自舉?謝謝! – cbare

+2

@cbare查看[這裏](http://stats.stackexchange.com/q/21023/5055)適合初學者。 – joran

+0

+1 joran,bootstrap的優點(也容易實現)是它將高槓杆觀測集羣的影響結合到不確定性估計中。這對於像家庭分析那樣未指定的數據集的數據特別有用。 – AdamO