2010-04-17 81 views
2

我有幾十萬個測量,其中依賴的 變量是概率,並且想要使用邏輯迴歸。 但是,我所有的協變量都是絕對的,更糟的是,所有的嵌套都是 。由此我的意思是,如果一個測量有「城市 - 鳳凰」那麼顯然肯定有「國家 - 亞利桑那」和 「國家 - 美國」我有四個這樣的因素 - 最細化的有大約20k的水平,但是如果需要的話,我想我可以沒有那個。 我也有一些非嵌套的分類協變量(只有四個左右, 可能有三個不同的級別)。 我最感興趣的是 是預測 - 在某個城市給出了一個新的觀察,我想 知道相關的概率/因變量。至少到現在爲止,我對 的相關推論機器 - 標準偏差 等沒有興趣。我希望我能負擔得起馬虎。 但是,我很想擁有這些信息,除非它需要更加昂貴的計算方法 。 有沒有人有任何建議如何攻擊?我已經看過 混合效果,但我不確定這是我在找什麼。與許多嵌套分類協變量的迴歸

+1

嗨Eric, 如果您有100,000個觀察值並且擬合了一個具有20,000個係數的迴歸,那麼您會嚴重過度擬合它,並且我懷疑它是否會在預測樣本量不足時表現出色。解決這個問題的一種方法是使用相關的「屬性」來編碼每個城市。例如,除了某些地理信息外,您還可以使用人口普查數據中的收入,農村/城市,人口統計等。這可以保持你的模型簡潔,並且消除嵌套變量問題。如果你能夠更多地瞭解你想要預測的內容,我可以提出屬性。 Ramnath – Ramnath 2010-04-17 23:17:13

回答

2

我覺得這更像是模型設計問題而不是具體的R;因此,我想先解決問題的上下文,然後討論適當的R包。

如果您的因變量是一個概率,例如$ [0,1] $中的$ y \,邏輯迴歸不適合數據---尤其是考慮到您有興趣預測出樣本概率。 Logistic將會模擬獨立變量對您的因變量從零變爲1的概率的貢獻,並且由於您的變量是連續的並被截斷,您需要一個不同的規範。

我認爲你對混合效果的直覺是一個很好的選擇。由於您的觀察結果是嵌套的,即多層次模型(在這種情況下爲層次線性模型)可能是您的數據的最佳規範。這種類型的建模最好的R包是multilevelnlme,並且對multi-level models in R and nlme available here都有很好的介紹。您可能對第26頁開始的關於多級建模的數據操作的討論特別感興趣。

0

我會建議尋找像彈性網那樣受到懲罰的迴歸。彈性網用於文本挖掘,每列代表一個詞的存在或不存在,並且可能有成千上萬的變量,這與您的問題類似。以R開頭的好地方是glmnet包裝及其附帶的JSS紙張:http://www.jstatsoft.org/v33/i01/