2016-06-01 29 views
-1

的選擇子集,我有19000的數據集的唯一病人ID的的lenght爲15000 我想有這些獨特的ID的一個子集,但與其他變量作爲原單集唯一的病人ID

patnr  age and 25 other variables 
1   20 
2   21 
3   16 
4   5 
19000 

我該怎麼做?現在,我只能看到有多少唯一的病人ID是在此數據庫中使用此命令:

length(unique(data$patnr)) 
+0

歡迎來到Stack Overflow!請閱讀關於[如何提出一個好問題](http://stackoverflow.com/help/how-to-ask)以及如何給出[可重現的示例]的信息(http://stackoverflow.com/questions/ 5963269)。這會讓其他人更容易幫助你。 – zx8754

+0

如果'patnr'是重複的,你想在結果中保留哪一個? – zx8754

回答

0

比方說,你data.frame被調用時,DF。您可以使用unique如下選擇患者ID的第一個實例出現:

dfUnique <- df[unique(df$patn), ] 

注意,這將下降大約4000行,而且如果其他變量都在同一患者不同否則你會失去信息第二次觀察。