R：在條件下替換數據幀中的值

我有一個由三列組成的數據幀（請參閱代碼示例）。第一列包含類別（a），第二列是觀測數量（b），第三列是這些觀測值的平均值（c）。R：在條件下替換數據幀中的值

#create a test df 
    a<-factor(c("aaa","aaa","aaa","ddd","eee","ddd","aaa","ddd")) 
    b<-c(3,4,1,3,5,7,3,2) 
    c<-c(1,2,NA,4,5,6,7,NA) 
    df.abc<-data.frame(a=a,b=b,c=c) 
    df.abc

如果觀察的數目爲1或2，其中標記爲缺失值（NA）的條目。

因此，我的功能的目的是用每個類別的平均值替換這些缺失值。

我帶了我一段時間，但我得到了一個功能工作，用一個類別代替所有缺失值（如果觀察結果爲1）。它看起來像這樣：

#function to substitue the missing values in row c by their means 
    #according to their categories 
    function.abc<-function(x){ 
     ifelse(
      (df.abc[,1]==x)&(df.abc[,2]==1), 
      mean(df.abc$c[df.abc$a ==x],na.rm=TRUE), 
      df.abc[,3] 
     ) 
    }

測試這一功能：

#test the function for the category "ccc" 
    function.abc("aaa")

它工作的很好（但僅僅是平均值，而不是平均平均值）的輸出是：

[1] 1.000000 2.000000 3.333333 4.000000 5.000000 6.000000 7.000000不適用

現在我的問題是，我有很多類別（n = 32），我試圖將這個函數應用於包含我的矢量類別。在這種情況下的simpe例子是：

#test the function for a testvector 
    test.vector<-c("aaa","ddd") 
    function.abc(test.vector)

輸出爲：

[1] 1.0 2.0 4.5 4.0 5.0 6.0 7.0 NA

所以，很顯然，這將不起作用了...

任何人都可以幫我重新安排功能嗎？我很新的節目，它仍然是一個很大的挑戰，我設計短期和goodworking功能...

編輯：

我想輸出是： [1] 1.000000 2.000000 3.20000 4.000000 5.000000 6.000000 7.000000 5.000000

使得組aaa的平均（3.20000）代入AAA NA值和組DDD的平均值（5.0000000）代入NA在DDD ...

來源

2012-11-21 Joschi

目前尚不清楚你想要的最後一種情況下可能返回的。 –

他會想'[1] 1.000000 2.000000 3.333333 4.000000 5.000000 6.000000 7.000000 5.00000'我相信。 –

考慮到問題的陳述，我不認爲所提供的答案都是正確的。如果三個項目在值爲'= c（1,2,7）'的類別「aaa」中，計數爲「= c（3,4,3）'，那麼加權平均值不是3.3333，而是3.2。如果我對問題陳述的理解是錯誤的，那麼也許可以修改這個問題來澄清爲什麼計數不能用於計算平均值？ –

爲了與多個列進行一個類別，你將需要使用的東西，分割數據幀，然後作用於組件內工作。 lapply(split(df, fac), function(x) {...})範例適用於此。或者您可以使用transform或plyr包。

> lapply(split(df.abc, df.abc$a), 
       function(dfrm) { dfrm[is.na(dfrm$c), "c"] <- 
        weighted.mean(dfrm[!is.na(dfrm$c) , "c"], dfrm[!is.na(dfrm$c), "b"]) 
         dfrm}) 
       # need to evaluate dfrm in order to return the full value. 
$aaa 
    a b c 
1 aaa 3 1.0 
2 aaa 4 2.0 
3 aaa 1 3.2 
7 aaa 3 7.0 

$ddd 
    a b c 
4 ddd 3 4.0 
6 ddd 7 6.0 
8 ddd 2 5.4 

$eee 
    a b c 
5 eee 5 5

然後，您可以rbind他們使用`do.call：

do.call(rbind, lapply(split(df.abc, df.abc$a), 
      function(dfrm) { dfrm[is.na(dfrm$c), "c"] <- 
       weighted.mean(dfrm[!is.na(dfrm$c) , "c"], dfrm[!is.na(dfrm$c), "b"]) 
        dfrm})) 
     a b c 
aaa.1 aaa 3 1.0 
aaa.2 aaa 4 2.0 
aaa.3 aaa 1 3.2 
aaa.7 aaa 3 7.0 
ddd.4 ddd 3 4.0 
ddd.6 ddd 7 6.0 
ddd.8 ddd 2 5.4 
eee eee 5 5.0

來源

2012-11-21 17:50:56

爲我工作。甚至沒有考慮先拆分它，但這是完全合理的。謝謝！ – Joschi

I」米不太清楚你的意思，但如果你的意思是包括所有這樣的行，你可以在％中使用％。

function.abc<-function(x){ 
    ifelse(
    (df.abc[,1] %in% x)&(df.abc[,2]==1), 
    mean(df.abc$c[df.abc$a %in% x],na.rm=TRUE), 
    df.abc[,3] 
) 
} 

> function.abc("aaa") 
[1] 1.000000 2.000000 3.333333 4.000000 5.000000 6.000000 7.000000  NA 

> test.vector<-c("aaa","ddd") 
> function.abc(test.vector) 
[1] 1 2 4 4 5 6 7 NA

的最後一個元素是NA因爲列「B」不是1

來源

2012-11-21 17:17:49

CatMeans <- tapply(df.abc$c, df.abc$a, function(x) mean(x, na.rm==T))將讓你指按類別。

 aaa  ddd  eee 
3.333333 5.000000 5.000000

這樣做的所有所有的人：

> CatMeans <- tapply(df.abc$c, df.abc$a, function(x) mean(x, na.rm==T)) 
> ifelse(is.na(df.abc$c), CatMeans[df.abc$a], df.abc$c) 
[1] 1.000000 2.000000 3.333333 4.000000 5.000000 6.000000 7.000000 5.000000

你可以說，到功能我敢肯定。如果你只是想"aaa"和"ddd"，那麼你可以有ifelse(is.na(df.abc$c) & df.abc$a %in% c("aaa","ddd"),...

來源

2012-11-21 17:22:24

R：在條件下替換數據幀中的值

回答

相關問題