我正在嘗試使用例如Logistic迴歸或決策樹(或其他任何其他方法)在R中構建預測模型。除了分類變量(例如存在或不存在疾病)之外,數據集還包括諸如性別,年齡,BMI,吸菸狀態等變量。有偏倚的數據的預測模型(分類)
變量性別對我的模型非常重要,我希望它成爲預測變量的一部分。然而,在探索性分析過程中,我發現2/3以上的觀察結果來自女性受訪者,這並不是真正的女性人口比例。
我該怎麼做才能考慮到這一點?我的意思是,我不希望模型給女性帶來更大的風險(例如),因爲比男性受訪者獲得的觀察方式更多。
非常感謝。
這不是一個特定的編程問題,因此不適合堆棧溢出。如果您需要統計分析的建議,則應改爲發佈到[stats.se]。 – MrFlick
應該遷移到CV;但是,你可以使用權重 –