我有一個跨越多年的許多變量(年,網站,位置,圖片編號,分類和計數)的大型數據集。 Year,Site,Location的唯一變量在整個數據集中保持穩定,並且拍攝的照片數量基本穩定(我偶爾會忘記拍攝所有照片)。但是,由於我已經設置了Taxonomy變量,如果某個Taxon不在一組照片中,它不會包含在該網站的Location數據中(不包含零數據)。如何計算已知缺失數據的平均值
但是,當計算平均密度數年時,計算中需要表示零數據很重要。
這是我的數據表的例子。
Year<-c(2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005,2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005 ,2005, 2005, 2005, 2005 ,2005 ,2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005 ,2005, 2005 ,2005, 2005, 2005 ,2005 ,2005 ,2005, 2005 ,2005 ,2005, 2005, 2005, 2005, 2005 ,2006, 2006, 2006, 2006, 2006, 2006 ,2006 ,2006, 2006, 2006, 2006 ,2006 ,2006 ,2006 ,2006 ,2006 ,2006 ,2006, 2006, 2006, 2006, 2006 ,2006 ,2006, 2006 ,2006, 2006, 2006,2006, 2006, 2006 ,2006 ,2006, 2006 ,2006, 2006 ,2006 ,2006, 2006, 2006, 2006 ,2006, 2006, 2006, 2006, 2006 ,2006,2006,2006,2006,2006)
Site<- c(1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,2,2,2,2)
Location<-c(1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 3,3, 3, 3, 3, 3, 3,3,3,3,3)
Photo<-c(1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4 ,1 ,2, 3, 4, 1, 2 ,3 ,4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1 ,2 ,3 ,4 ,1 ,2 ,3 ,4 ,1 ,2 ,3 ,4 ,1 ,2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 4,1,2,3,4)
Taxonomy<-c('B' ,'B' ,'B' ,'B', 'C', 'C', 'C', 'C', 'A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'C', 'C', 'C', 'C', 'A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'C','C', 'C', 'C', 'A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'C', 'C', 'C', 'C', 'A', 'A', 'A', 'A','B', 'B', 'B', 'B', 'C', 'C', 'C', 'C', 'A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'C', 'C', 'C', 'C', 'A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'A', 'A', 'A', 'A', 'B', 'B', 'B', 'B','A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'A', 'A', 'A', 'A', 'B', 'B', 'B','C', 'C', 'C', 'C')
Count<-rnorm(119,mean=5)
DF<-data.frame(Year,Site,Location,Photo,Taxonomy,Count)
我在這個示例數據集中添加了兩個問題。我在2006年的倒數第二位網站/位置(第115行)中錯過了一張圖片。和門類C不發生在2005年的第一個位置,只有在2006年
如果生活是完美的,所有的零數據的最後位置被列入我的數據集我只是做
aggregate(Count~Year+Site+Location+Photo+Taxonomy,DF,mean)
或
aggregate(Count~Year+Site+Taxonomy,DF,mean)
如果我想看看剛纔點了多年。
但是,如果沒有「零」數據,我的所有手段都將關閉。
我試着在一些代碼中添加所有的零數據,但數據集變得怪異,我寧願不去那條路。
請考慮爲您的帖子添加「正確」答案,即您想要的答案。如果隨機生成Count,我也會減少示例數據集的大小並使用set.seed()。這將有助於那些試圖提供建議的人。 –