2015-11-05 21 views
-1

我正在嘗試使用例如Logistic迴歸或決策樹(或其他任何其他方法)在R中構建預測模型。除了分類變量(例如存在或不存在疾病)之外,數據集還包括諸如性別,年齡,BMI,吸菸狀態等變量。有偏倚的數據的預測模型(分類)

變量性別對我的模型非常重要,我希望它成爲預測變量的一部分。然而,在探索性分析過程中,我發現2/3以上的觀察結果來自女性受訪者,這並不是真正的女性人口比例。

我該怎麼做才能考慮到這一點?我的意思是,我不希望模型給女性帶來更大的風險(例如),因爲比男性受訪者獲得的觀察方式更多。

非常感謝。

+0

這不是一個特定的編程問題,因此不適合堆棧溢出。如果您需要統計分析的建議,則應改爲發佈到[stats.se]。 – MrFlick

+0

應該遷移到CV;但是,你可以使用權重 –

回答

0

這裏有一個很好的討論:https://stats.stackexchange.com/questions/6067/does-an-unbalanced-sample-matter-when-doing-logistic-regression。這是一個統計問題,而不是一個R問題。簡短的答案是它不應該是一個問題。在底部的最終答案中注意,它表示您可以自己平衡樣本,然後記住您的模型是假設類同樣常見的後驗概率估計。你可以在這種情況下做到這一點,這將是一個準確的假設,因爲你知道你的人口中男性和女性的真實比例。假設您擁有足夠的數據,則可以隨機刪除一半的女性觀察值。你可能只是修補。我經常找到最好的方法來了解某些事情是否有效,就是嘗試兩種方式,看看它是否有所作爲。