2017-04-25 63 views
0

我試圖在R中運行生物量數據(還原生物量和生殖生物量與營養生物量的比率)作爲生境類型(「hab」 ),收集年份數據(「年份」)和數據收集站點(「站點」)。我的數據看起來好像適合Gamma分佈,但是我有8個觀測值,生物量爲零(約800個觀測值),所以模型不會運行。處理這個問題的最好方法是什麼?什麼是另一個錯誤分佈使用?或者,將一個非常小的值(例如.0000001)添加到我的零觀察值是否可行?使用Gamma分佈運行GLM,但數據包括零

我的模式是:

reproductive_biomass<-glm(repro.biomass~hab*year + site, data=biom, family = Gamma(link = "log")) 

回答

1

啊,零 - 愛是愛他們。

根據你正在學習的系統,我會試圖檢查零膨脹或跨欄模型 - 基本思想是模型有兩個組件:一些二項式過程決定響應是否爲零或非零,然後是一個在非零值上工作的伽馬。有意思的部分是你可以對兩個模型的係數做推論,甚至對兩者都使用不同的係數。

http://seananderson.ca/2014/05/18/gamma-hurdle.html ...但搜索「零膨脹伽馬」或「tweedie模型」也可能產生一些信息和/或學術性的東西。

在理想的世界中,您的分析工具應該適合您的系統和您的預期推論。零膨脹的世界非常美好,但是以假設單獨的過程爲條件。因此,一個重要的問題當然要回答在研究的背景下零是「意味着什麼」,只有你可以回答這個問題 - 無論他們是恰好真正非常小的數字還是真正的零導致一些混亂的過程,比如你的同事將漂白劑潑灑(或者對你的研究不感興趣),或者真正有趣的零。

另一個想法:在交叉驗證時詢問相同的問題,並且您可能會得到一個更具統計學意義的答案。祝你好運!