與許多嵌套分類協變量的迴歸

我有幾十萬個測量，其中依賴的變量是概率，並且想要使用邏輯迴歸。但是，我所有的協變量都是絕對的，更糟的是，所有的嵌套都是。由此我的意思是，如果一個測量有「城市 - 鳳凰」那麼顯然肯定有「國家 - 亞利桑那」和「國家 - 美國」我有四個這樣的因素 - 最細化的有大約20k的水平，但是如果需要的話，我想我可以沒有那個。我也有一些非嵌套的分類協變量（只有四個左右，可能有三個不同的級別）。我最感興趣的是是預測 - 在某個城市給出了一個新的觀察，我想知道相關的概率/因變量。至少到現在爲止，我對的相關推論機器 - 標準偏差等沒有興趣。我希望我能負擔得起馬虎。但是，我很想擁有這些信息，除非它需要更加昂貴的計算方法。有沒有人有任何建議如何攻擊？我已經看過混合效果，但我不確定這是我在找什麼。與許多嵌套分類協變量的迴歸

來源

2010-04-17 eric

嗨Eric，如果您有100,000個觀察值並且擬合了一個具有20,000個係數的迴歸，那麼您會嚴重過度擬合它，並且我懷疑它是否會在預測樣本量不足時表現出色。解決這個問題的一種方法是使用相關的「屬性」來編碼每個城市。例如，除了某些地理信息外，您還可以使用人口普查數據中的收入，農村/城市，人口統計等。這可以保持你的模型簡潔，並且消除嵌套變量問題。如果你能夠更多地瞭解你想要預測的內容，我可以提出屬性。 Ramnath – Ramnath 2010-04-17 23:17:13

我覺得這更像是模型設計問題而不是具體的R;因此，我想先解決問題的上下文，然後討論適當的R包。

如果您的因變量是一個概率，例如$ [0,1] $中的$ y \，邏輯迴歸不適合數據---尤其是考慮到您有興趣預測出樣本概率。 Logistic將會模擬獨立變量對您的因變量從零變爲1的概率的貢獻，並且由於您的變量是連續的並被截斷，您需要一個不同的規範。

我認爲你對混合效果的直覺是一個很好的選擇。由於您的觀察結果是嵌套的，即多層次模型（在這種情況下爲層次線性模型）可能是您的數據的最佳規範。這種類型的建模最好的R包是multilevel和nlme，並且對multi-level models in R and nlme available here都有很好的介紹。您可能對第26頁開始的關於多級建模的數據操作的討論特別感興趣。

來源

2010-04-17 23:15:46 DrewConway

我會建議尋找像彈性網那樣受到懲罰的迴歸。彈性網用於文本挖掘，每列代表一個詞的存在或不存在，並且可能有成千上萬的變量，這與您的問題類似。以R開頭的好地方是glmnet包裝及其附帶的JSS紙張：http://www.jstatsoft.org/v33/i01/。

來源

2010-04-18 14:00:20 hadley

與許多嵌套分類協變量的迴歸

回答

相關問題