我的數據是這樣的:無法找到ID與重複字段
ID Email
1 [email protected]
2 [email protected]
3 [email protected]
4 [email protected]
5 [email protected]
6 [email protected]
應該有每個ID恰好1電子郵件,但事實並非如此。
> dim(data)
[1] 5071 2
> length(unique(data$Person_Onyx_Id))
[1] 5071
> length((data$Email))
[1] 5071
> length(unique(data$Email))
[1] 4481
所以,我需要找到與重複的電子郵件地址的ID。
看起來這應該很容易,但我剔除:
> sqldf("select ID, count(Email) from data group by ID having count(Email) > 1")
[1] ID count(Email)
<0 rows> (or 0-length row.names)
我也試着脫下having
條款,並將結果發送到一個對象,並通過count(Email)
排序的對象。 ..看來,每ID
有count(Email)
的1 ...
我會dput
的實際數據,但我不能由於電子郵件地址的敏感性。
看看'?duplicated' – shadow 2015-02-05 15:42:12
嘗試'集團通過Emails'然後尋找的ID在那裏,電子郵件數超過1 如果按ID你總是會得到1爲計數(電子郵件) – 2015-02-05 15:43:17
@shadow '重複'給了邏輯(0)'Idk爲什麼,因爲肯定有重複... – 2015-02-05 17:54:53