我有一個迴歸模型,其中因變量是連續的,但90%的自變量是分類(有序和無序),大約百分之三十的記錄有缺失值更糟糕的是,它們隨機丟失,沒有任何模式,也就是說,超過百分之四十五的數據至少有一個缺失值。沒有先驗理論來選擇模型的規格,因此在運行迴歸之前,關鍵任務之一是降維。雖然我意識到連續變量降維的幾種方法,但我並不知道類別數據的類似靜態文獻(除了可能作爲對應分析的一部分,其基本上是頻率表上主分量分析的一部分)。我還要補充說,該數據集具有200個變量的中等規模500000個觀測值。我有兩個問題。具有缺失值的分類數據中的維度減少
- 是否有一個很好的統計參考用於分類數據的降維以及強健的插補(我認爲第一個問題是插補和降維)?
- 這與實現上述問題有關。我早先廣泛地使用了R,傾向於對連續變量大量使用transcan和impute函數,並使用樹方法的變體來計算分類值。我有一個Python的工作知識,所以如果出於這個目的,那麼我會使用它。 python或R中的任何實現指針都會很有幫助。 謝謝。
謝謝。這真的很有幫助。 – user227290 2010-05-15 23:41:04
嗨,現在找不到演示文稿的鏈接。 – 2017-12-07 13:39:24