這是從stats.stackexchange轉發,我沒有得到滿意的答覆。我有兩個數據集,第一個在學校,第二個列出每個學校誰在標準化測試(強調故意)失敗的學生。假數據集可以通過(感謝Tharen)產生:R:分層數據的貝葉斯邏輯迴歸
#random school data for 30 schools
schools.num = 30
schools.data = data.frame(school_id=seq(1,schools.num)
,tot_white=sample(100:300,schools.num,TRUE)
,tot_black=sample(100:300,schools.num,TRUE)
,tot_asian=sample(100:300,schools.num,TRUE)
,school_rev=sample(4e6:6e6,schools.num,TRUE)
)
#total students in each school
schools.data$tot_students = schools.data$tot_white + schools.data$tot_black + schools.data$tot_asian
#sum of all students all schools
tot_students = sum(schools.data$tot_white, schools.data$tot_black, schools.data$tot_asian)
#generate some random failing students
fail.num = as.integer(tot_students * 0.05)
students = data.frame(student_id=sample(seq(1:tot_students), fail.num, FALSE)
,school_id=sample(1:schools.num, fail.num, TRUE)
,race=sample(c('white', 'black', 'asian'), fail.num, TRUE)
)
我想估計P(失敗= 1 |學生種族,學校收入)。如果我在學生數據集上運行多項式離散選擇模型,我將明確地估計P(Race | Fail = 1)。我顯然必須估計這個的倒數。由於所有信息都可以在兩個數據集中獲得(P(失敗),P(競賽),收入),我沒有理由不能做到這一點。但是我很難理解如何在R中實現。任何指針都會非常感謝。謝謝。
文森特,謝謝你。父母收入表示,到學校級別的問題是,我不能包括額外的學生級別特徵。這就是爲什麼我想要一個明確的分層估計逆概率的方法。 – user702432 2012-02-24 08:13:57
在這種情況下,我仍然建議將所有內容放在同一個data.frame (包括school_id,student_id,race,result,school_rev等), ,但是您還需要通過測試的學生的行。 – 2012-02-24 08:24:34
這就是問題所在。我在學生層面有一個截斷的樣本 - 這就是爲什麼我想要沿着混合建模的思路想一些東西。 – user702432 2012-02-24 08:28:38