2010-12-06 195 views
0
的選擇/決策

我有了一些重複的行的data.frame,類似於這樣的事情:優先基於行

con <- textConnection(Lines <- " 
First, Last, Address, Address 2, Email, Custom1, Custom2, Custom3 
A, B, C, D, [email protected],1,2,3 
A, B, C, D, [email protected],1,2,2 
A, B, C, D, [email protected],1,2,1 
") 
x <- read.csv(con) 
close(con) 

現在,當我去重複,以下列方式:

x <- x[!duplicated(x[,c("email")]),] 

你可以推薦一個方法來優先考慮那些包含Custom3 = 1的行嗎?或者是否有更好的重複數據刪除機制?

回答

1

嘗試尋找重複之前排序:

X < - X [順序(X [C( 「特製3」)]),]
X < - X [複製(X [,C(」!電子郵件「)]),]

+0

好的建議,我甚至沒有考慮排序順序是一個因素,但它絕對有道理。 – 2010-12-07 00:16:28