處理重複的Python

我正在處理一個案例數據CSV文件。我遇到了一個問題，其中名爲case_number的列之一有多個病例號重複。有沒有辦法刪除重複項，而不會丟失與那些將被刪除的行相關的任何信息。處理重複的Python

換句話說，將所有的信息合併到一個單元中，分配給case_number。

Here is an image of the CSV

2017-03-07 Victor Aguilar

你到目前爲止嘗試過什麼？給出一些代碼示例 – Kewl

您應該使用pd.read_csv('filename.csv')創建您的數據幀，但對於這個簡單的例子，我就創建一個利用詞典：

import pandas as pd 
df = pd.DataFrame({'x':[1,1,1,2,1,2,2], 'y':['a','b','c','d','e','f','g']}) 
df = df.groupby('x')['y'].apply(lambda i: ', '.join(i)).reset_index()

輸出：

x   y 
0 1 a, b, c, e 
1 2  d, f, g

將字符串之間的任何分隔符替換爲', '。

來源

2017-03-07 01:02:37 pshep123

謝謝，先生，我是python的新手。已經完成了大量的教程和練習集，但現在作爲一名實習生，我不再擁有自己的手。必須應用這些技能有點困難，但具有挑戰性的自我是學習的最佳方式。 –

@VictorAguilar - 很樂意幫忙。如果您正在進行大量的數據處理，Pandas將會非常有幫助。如果你覺得我回答了你的問題，如果你把它看作答案，我會很感激。 – pshep123

處理重複的Python

回答

相關問題