有偏倚的數據的預測模型（分類）

-1

我正在嘗試使用例如Logistic迴歸或決策樹（或其他任何其他方法）在R中構建預測模型。除了分類變量（例如存在或不存在疾病）之外，數據集還包括諸如性別，年齡，BMI，吸菸狀態等變量。有偏倚的數據的預測模型（分類）

變量性別對我的模型非常重要，我希望它成爲預測變量的一部分。然而，在探索性分析過程中，我發現2/3以上的觀察結果來自女性受訪者，這並不是真正的女性人口比例。

我該怎麼做才能考慮到這一點？我的意思是，我不希望模型給女性帶來更大的風險（例如），因爲比男性受訪者獲得的觀察方式更多。

非常感謝。

來源

2015-11-05 Gerardo Felix

這不是一個特定的編程問題，因此不適合堆棧溢出。如果您需要統計分析的建議，則應改爲發佈到[stats.se]。 – MrFlick

應該遷移到CV;但是，你可以使用權重 –

這裏有一個很好的討論：https://stats.stackexchange.com/questions/6067/does-an-unbalanced-sample-matter-when-doing-logistic-regression。這是一個統計問題，而不是一個R問題。簡短的答案是它不應該是一個問題。在底部的最終答案中注意，它表示您可以自己平衡樣本，然後記住您的模型是假設類同樣常見的後驗概率估計。你可以在這種情況下做到這一點，這將是一個準確的假設，因爲你知道你的人口中男性和女性的真實比例。假設您擁有足夠的數據，則可以隨機刪除一半的女性觀察值。你可能只是修補。我經常找到最好的方法來了解某些事情是否有效，就是嘗試兩種方式，看看它是否有所作爲。

來源

2015-11-05 23:40:03

有偏倚的數據的預測模型（分類）

回答

相關問題