2017-03-07 50 views
1

我正在處理一個案例數據CSV文件。我遇到了一個問題,其中名爲case_number的列之一有多個病例號重複。有沒有辦法刪除重複項,而不會丟失與那些將被刪除的行相關的任何信息。處理重複的Python

換句話說,將所有的信息合併到一個單元中,分配給case_number

Here is an image of the CSV

+1

你到目前爲止嘗試過什麼?給出一些代碼示例 – Kewl

回答

2

您應該使用pd.read_csv('filename.csv')創建您的數據幀,但對於這個簡單的例子,我就創建一個利用詞典:

import pandas as pd 
df = pd.DataFrame({'x':[1,1,1,2,1,2,2], 'y':['a','b','c','d','e','f','g']}) 
df = df.groupby('x')['y'].apply(lambda i: ', '.join(i)).reset_index() 

輸出:

x   y 
0 1 a, b, c, e 
1 2  d, f, g 

將字符串之間的任何分隔符替換爲', '

+0

謝謝,先生,我是python的新手。已經完成了大量的教程和練習集,但現在作爲一名實習生,我不再擁有自己的手。必須應用這些技能有點困難,但具有挑戰性的自我是學習的最佳方式。 –

+0

@VictorAguilar - 很樂意幫忙。如果您正在進行大量的數據處理,Pandas將會非常有幫助。如果你覺得我回答了你的問題,如果你把它看作答案,我會很感激。 – pshep123