我正在尋找一個簡單的解決方案,而不是做幾個步驟。R - 如何在一列中找到重複的行並在該重複值中添加額外的文本?
我有36個變量的數據幀與幾乎3000行,VARS之一是字符類型與名稱。它們必須是唯一的。我需要找到具有相同名稱的行,並在文本中添加「重複」。我無法刪除重複數據,因爲它來自關係數據庫,我需要該行ID用於其他操作。 我可以找到重複的行並手動重命名文本。但這意味着在查找重複的記錄行ID和他們手動替換文本名稱。
有沒有辦法自動將多餘的文字添加到重複的名字?我仍然對R很陌生,並且很難做出基於自動條件的功能。
這將是這樣的: 從這:
ID name age sex
1 John 18 M
2 Mary 25 F
3 Mary 19 F
4 Ben 21 M
5 July 35 F
要這樣:
ID name age sex
1 John 18 M
2 Mary 25 F
3 Mary - duplicated 19 F
4 Ben 21 M
5 July 35 F
難道你們提供一些線索?
非常感謝。
我會建議一種不同的方法,使用額外的列來標記重複項:'df $ duplicated < - duplicated(df $ name)'。除了非常簡單和快速以外,它具有易於子集化的優點,例如'subset(df,!duplicated)'。 –
我曾經想過類似的東西,但後來我需要將數據導入到數據庫中,並且無法添加列。我綁定到他們發送給我的數據庫。感謝您的建議,我一定會在其他作品中使用。 – aoceano