2010-05-14 75 views
18

我有一個迴歸模型,其中因變量是連續的,但90%的自變量是分類(有序和無序),大約百分之三十的記錄有缺失值更糟糕的是,它們隨機丟失,沒有任何模式,也就是說,超過百分之四十五的數據至少有一個缺失值。沒有先驗理論來選擇模型的規格,因此在運行迴歸之前,關鍵任務之一是降維。雖然我意識到連續變量降維的幾種方法,但我並不知道類別數據的類似靜態文獻(除了可能作爲對應分析的一部分,其基本上是頻率表上主分量分析的一部分)。我還要補充說,該數據集具有200個變量的中等規模500000個觀測值。我有兩個問題。具有缺失值的分類數據中的維度減少

  1. 是否有一個很好的統計參考用於分類數據的降維以及強健的插補(我認爲第一個問題是插補和降維)?
  2. 這與實現上述問題有關。我早先廣泛地使用了R,傾向於對連續變量大量使用transcan和impute函數,並使用樹方法的變體來計算分類值。我有一個Python的工作知識,所以如果出於這個目的,那麼我會使用它。 python或R中的任何實現指針都會很有幫助。 謝謝。

回答

16

關於分類數據的插補,我建議檢查mice軟件包。也請看看這個presentation,它解釋了它如何計算多元分類數據。不完整多元數據的多重歸因的另一個包是Amelia。阿米莉亞包括一些有限的能力來處理序數和名義變量。

對於分類數據的降維(即將變量排列到同質羣集中的方法),我會建議Multiple Correspondence Analysis的方法,它將爲您提供最大化羣集同質性的潛在變量。與主成分分析(PCA)和因子分析中所做的類似,也可以旋轉MCA解決方案以增加組件的簡單性。旋轉背後的想法是找到與旋轉組件更加清晰重合的變量子集。這意味着最大限度地簡化組件可以幫助因子解釋和變量聚類。在R MCA方法中包括在包ade4,MASS,FactoMineRca(至少)中。至於FactoMineR,您可以通過圖形界面使用它,如果您將它作爲額外菜單添加到已由Rcmdr軟件包建議的菜單中,請安裝RcmdrPlugin.FactoMineR

+0

謝謝。這真的很有幫助。 – user227290 2010-05-15 23:41:04

+0

嗨,現在找不到演示文稿的鏈接。 – 2017-12-07 13:39:24