如何計算已知缺失數據的平均值

我有一個跨越多年的許多變量（年，網站，位置，圖片編號，分類和計數）的大型數據集。 Year，Site，Location的唯一變量在整個數據集中保持穩定，並且拍攝的照片數量基本穩定（我偶爾會忘記拍攝所有照片）。但是，由於我已經設置了Taxonomy變量，如果某個Taxon不在一組照片中，它不會包含在該網站的Location數據中（不包含零數據）。如何計算已知缺失數據的平均值

但是，當計算平均密度數年時，計算中需要表示零數據很重要。

這是我的數據表的例子。

Year<-c(2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005,2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005 ,2005, 2005, 2005, 2005 ,2005 ,2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005 ,2005, 2005 ,2005, 2005, 2005 ,2005 ,2005 ,2005, 2005 ,2005 ,2005, 2005, 2005, 2005, 2005 ,2006, 2006, 2006, 2006, 2006, 2006 ,2006 ,2006, 2006, 2006, 2006 ,2006 ,2006 ,2006 ,2006 ,2006 ,2006 ,2006, 2006, 2006, 2006, 2006 ,2006 ,2006, 2006 ,2006, 2006, 2006,2006, 2006, 2006 ,2006 ,2006, 2006 ,2006, 2006 ,2006 ,2006, 2006, 2006, 2006 ,2006, 2006, 2006, 2006, 2006 ,2006,2006,2006,2006,2006) 

Site<- c(1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,2,2,2,2) 

Location<-c(1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 3,3, 3, 3, 3, 3, 3,3,3,3,3) 

Photo<-c(1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4 ,1 ,2, 3, 4, 1, 2 ,3 ,4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1 ,2 ,3 ,4 ,1 ,2 ,3 ,4 ,1 ,2 ,3 ,4 ,1 ,2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 4,1,2,3,4) 

Taxonomy<-c('B' ,'B' ,'B' ,'B', 'C', 'C', 'C', 'C', 'A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'C', 'C', 'C', 'C', 'A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'C','C', 'C', 'C', 'A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'C', 'C', 'C', 'C', 'A', 'A', 'A', 'A','B', 'B', 'B', 'B', 'C', 'C', 'C', 'C', 'A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'C', 'C', 'C', 'C', 'A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'A', 'A', 'A', 'A', 'B', 'B', 'B', 'B','A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'A', 'A', 'A', 'A', 'B', 'B', 'B','C', 'C', 'C', 'C') 


Count<-rnorm(119,mean=5) 

DF<-data.frame(Year,Site,Location,Photo,Taxonomy,Count)

我在這個示例數據集中添加了兩個問題。我在2006年的倒數第二位網站/位置（第115行）中錯過了一張圖片。和門類C不發生在2005年的第一個位置，只有在2006年

如果生活是完美的，所有的零數據的最後位置被列入我的數據集我只是做

aggregate(Count~Year+Site+Location+Photo+Taxonomy,DF,mean)

或

aggregate(Count~Year+Site+Taxonomy,DF,mean)

如果我想看看剛纔點了多年。

但是，如果沒有「零」數據，我的所有手段都將關閉。

我試着在一些代碼中添加所有的零數據，但數據集變得怪異，我寧願不去那條路。

來源

2013-02-03 Vinterwoo

請考慮爲您的帖子添加「正確」答案，即您想要的答案。如果隨機生成Count，我也會減少示例數據集的大小並使用set.seed（）。這將有助於那些試圖提供建議的人。 –

由於熊貓或R :-)明確排除缺失的數據在手段calc，因爲它應該，你需要做的框架之外的工作，總計有問題的項目，併除以計數單獨採取所有items ...

來源

2013-02-03 01:09:56 dartdog

我試着手動計算平均值（總和/ n），但每個網站獲得可靠的n張照片是困難的。我沿着聚合線（照片〜年+站點+位置，FUN =函數（x）長度（獨特（x）））嘗試了一些東西來計算我的n值，但這並不奏效。 – Vinterwoo

你將需要兩個計算。一個用於聚合，另一個用於對所有項目求和。 – dartdog

aggregate(Count~Year+Site+Location+Photo+Taxonomy,DF, function(ct) mean(ct[ct != 0]))

這將返回基於每個組內非零條目的均值。

來源

2013-02-03 01:12:13

如何計算已知缺失數據的平均值

回答

相關問題