我正在處理一個案例數據CSV文件。我遇到了一個問題,其中名爲case_number
的列之一有多個病例號重複。有沒有辦法刪除重複項,而不會丟失與那些將被刪除的行相關的任何信息。處理重複的Python
換句話說,將所有的信息合併到一個單元中,分配給case_number
。
我正在處理一個案例數據CSV文件。我遇到了一個問題,其中名爲case_number
的列之一有多個病例號重複。有沒有辦法刪除重複項,而不會丟失與那些將被刪除的行相關的任何信息。處理重複的Python
換句話說,將所有的信息合併到一個單元中,分配給case_number
。
您應該使用pd.read_csv('filename.csv')
創建您的數據幀,但對於這個簡單的例子,我就創建一個利用詞典:
import pandas as pd
df = pd.DataFrame({'x':[1,1,1,2,1,2,2], 'y':['a','b','c','d','e','f','g']})
df = df.groupby('x')['y'].apply(lambda i: ', '.join(i)).reset_index()
輸出:
x y
0 1 a, b, c, e
1 2 d, f, g
將字符串之間的任何分隔符替換爲', '
。
謝謝,先生,我是python的新手。已經完成了大量的教程和練習集,但現在作爲一名實習生,我不再擁有自己的手。必須應用這些技能有點困難,但具有挑戰性的自我是學習的最佳方式。 –
@VictorAguilar - 很樂意幫忙。如果您正在進行大量的數據處理,Pandas將會非常有幫助。如果你覺得我回答了你的問題,如果你把它看作答案,我會很感激。 – pshep123
你到目前爲止嘗試過什麼?給出一些代碼示例 – Kewl