查找重複項

-1

我有這種格式的ID和它出現的次數的數據。我想寫一個函數返回兩次以上的ID apprearing。查找重複項

這裏是我的代碼

if (data$Freq>=2){ 
    return(data$ID) 
} else { 
    print("no duplicates of years") 
}

正在以下雁和警告

[1] "no duplicates of years" 
Warning message: 
In if (x$Freq > 1) { : 
    the condition has length > 1 and only the first element will be used

什麼可能我是做錯了什麼？

編輯：

感謝所有的u的響應。我想我有方式有問題，我創建了頻率表

x=as.data.frame(table(data$cid))

其中cid是ID。當我嘗試看看在第一列的元素即

> x$var1[1:20,]

我得到NULL，而這

>x$Freq[1:20,]

將返回

Error in x$Freq[1:20, ] : incorrect number of dimensions'

但x[1:20,]返回顯示x元素數據框。

來源

2012-11-28 jonestats

你應該使用'ifelse'，而不是'if' – Andrie

ID出現*超過*或*至少*兩次？ – BenBarnes

你的變量叫做'x'還是叫'data'？你給出的錯誤信息與你的代碼不一致（它也表示''1'而不是'> = 2'） –

由於@Andrie建議，ifelse可能是有用的：

根據您的其他信息，這裏有一個重複的例子：

set.seed(1) 

data <- as.data.frame(table(data.frame(cid = sample(100:120, 30, replace=TRUE)))) 

> ifelse(data$Freq-1, as.character(data$Var1), "no duplicates of years") 
# [1] "no duplicates of years" "no duplicates of years" "no duplicates of years" 
# [4] "no duplicates of years" "104"     "105"     
# [7] "107"     "108"     "no duplicates of years" 
# [10] "no duplicates of years" "113"     "no duplicates of years" 
# [13] "no duplicates of years" "116"     "118"     
# [16] "119"     "no duplicates of years"

而只是顯示ID與同頻率> 1：

data$Var1[as.logical(data$Freq - 1)] 
# [1] 104 105 107 108 113 116 118 119 
# 17 Levels: 100 101 102 103 104 105 107 108 110 112 113 114 115 116 118 ... 120

來源

2012-11-28 08:12:31 BenBarnes

感謝所有你的迴應。我想我有一個問題，我創建頻率表的方式 – jonestats

感謝你所有的答覆。我想我有一個問題，我創建頻率表的方式'x = as.data.frame（table（data $ cid）），其中cid是ID。當我嘗試查看第一列中的元素，即'> x $ var1 [1:20，]我得到NULL，而這> x $ Freq [1:20，]會返回錯誤x $ Freq [1:20 ，]：維數不正確，但x [1:20，]返回顯示x中元素的數據框。' – jonestats

@jonestats，請看我更新的答案。另外，請閱讀子集（'？Extract'）。 'x $ Freq'是一維向量，方括號中的逗號表示您正嘗試對二維對象進行子集化。 – BenBarnes

有一個命令duplicated()，可以在不參考$ Freq列的情況下執行此操作：

data$ID[duplicated(data$ID)]

自己的代碼，不工作的錯誤提示，因爲if()需要有一個單一的TRUE/FALSE條件，它只是看看數據$頻率的第一個元素是一個1然後停止。

如果你想要做這樣的事情，然後which()或者是你想要什麼：

df= data.frame(freq=rep(1:2,5), id=1:10) 

df 

    freq id 
1  1 1 
2  2 2 
3  1 3 
4  2 4 
5  1 5 
6  2 6 
7  1 7 
8  2 8 
9  1 9 
10 2 10 

df$id[which(df$freq>1)] 
[1] 2 4 6 8 10

甚至

df$id[df$freq>1] 
[1] 2 4 6 8 10

來源

2012-11-28 08:12:53

它看起來並不像OP想要「重複」看數據，也沒有跡象表明ID「105」在該向量中出現多次 –

他說'我想寫一個返回ID出現的函數超過兩倍。「我認爲他的例子不完整，認爲我會提到直接方法。 –

回答

相關問題