我有幾十萬個測量,其中依賴的 變量是概率,並且想要使用邏輯迴歸。 但是,我所有的協變量都是絕對的,更糟的是,所有的嵌套都是 。由此我的意思是,如果一個測量有「城市 - 鳳凰」那麼顯然肯定有「國家 - 亞利桑那」和 「國家 - 美國」我有四個這樣的因素 - 最細化的有大約20k的水平,但是如果需要的話,我想我可以沒有那個。 我也有一些非嵌套的分類協變量(只有四個左右, 可能有三個不同的級別)。 我最感興趣的是 是預測 - 在某個城市給出了一個新的觀察,我想 知道相關的概率/因變量。至少到現在爲止,我對 的相關推論機器 - 標準偏差 等沒有興趣。我希望我能負擔得起馬虎。 但是,我很想擁有這些信息,除非它需要更加昂貴的計算方法 。 有沒有人有任何建議如何攻擊?我已經看過 混合效果,但我不確定這是我在找什麼。與許多嵌套分類協變量的迴歸
2
A
回答
2
我覺得這更像是模型設計問題而不是具體的R;因此,我想先解決問題的上下文,然後討論適當的R包。
如果您的因變量是一個概率,例如$ [0,1] $中的$ y \,邏輯迴歸不適合數據---尤其是考慮到您有興趣預測出樣本概率。 Logistic將會模擬獨立變量對您的因變量從零變爲1的概率的貢獻,並且由於您的變量是連續的並被截斷,您需要一個不同的規範。
我認爲你對混合效果的直覺是一個很好的選擇。由於您的觀察結果是嵌套的,即多層次模型(在這種情況下爲層次線性模型)可能是您的數據的最佳規範。這種類型的建模最好的R包是multilevel
和nlme
,並且對multi-level models in R and nlme available here都有很好的介紹。您可能對第26頁開始的關於多級建模的數據操作的討論特別感興趣。
0
我會建議尋找像彈性網那樣受到懲罰的迴歸。彈性網用於文本挖掘,每列代表一個詞的存在或不存在,並且可能有成千上萬的變量,這與您的問題類似。以R開頭的好地方是glmnet
包裝及其附帶的JSS紙張:http://www.jstatsoft.org/v33/i01/。
相關問題
- 1. 迴歸中的R與分類變量
- 2. Logistic迴歸 - 與分類變量
- 3. 多變量回歸
- 4. 分類與迴歸?
- 5. 的R - 多變量回歸
- 6. 與pytorch多變量線性迴歸
- 7. 嵌套類變量調用
- 8. 許多回歸的PyMC迴歸?
- 9. 取決於變量的許多嵌套`for`循環
- 10. 迴歸與分類器predict_proba
- 11. Rails嵌套協會與first_or_create
- 12. FactoryGirl與嵌套belongs_to協會
- 13. Python遞歸與產量和返回嵌套字典
- 14. 許多嵌套的AggregateExceptions
- 15. 嵌套類和遞歸
- 16. 與變量Logistic迴歸不改變
- 17. 的DataTemplate綁定到嵌套類變量
- 18. 訪問嵌套類變量的問題
- 19. 與mongoid嵌套的質量分配
- 20. GTM:點擊觸發按鈕與許多嵌套類
- 21. 許多嵌套for循環
- 22. 從嵌套for循環返回變量
- 23. Ansible嵌套變量
- 24. Ansible嵌套變量
- 25. 嵌套JSON變量
- 26. VSTS嵌套變量
- 27. Elasicsearch的嵌套樹與多嵌套
- 28. 許多線性迴歸
- 29. 樹中的R:迴歸與分類
- 30. 如何繪製和分析R中的多變量SVM迴歸
嗨Eric, 如果您有100,000個觀察值並且擬合了一個具有20,000個係數的迴歸,那麼您會嚴重過度擬合它,並且我懷疑它是否會在預測樣本量不足時表現出色。解決這個問題的一種方法是使用相關的「屬性」來編碼每個城市。例如,除了某些地理信息外,您還可以使用人口普查數據中的收入,農村/城市,人口統計等。這可以保持你的模型簡潔,並且消除嵌套變量問題。如果你能夠更多地瞭解你想要預測的內容,我可以提出屬性。 Ramnath – Ramnath 2010-04-17 23:17:13