我有以下的數據幀my_df
:大熊貓:聚合的列來創建一個非重複序列
name timestamp color
---------------------------
John 2017-01-01 blue
John 2017-01-02 blue
John 2017-01-03 blue
John 2017-01-04 yellow
John 2017-01-05 red
John 2017-01-06 red
Ann 2017-01-04 green
Ann 2017-01-05 orange
Ann 2017-01-06 orange
Ann 2017-01-07 red
Ann 2017-01-08 black
Dan 2017-01-11 blue
Dan 2017-01-12 blue
Dan 2017-01-13 green
Dan 2017-01-14 yellow
我然後使用以下代碼來找到每個人的顏色序列:
new_df = my_df.groupby(['name'], as_index=False).color \
.agg({"color_list": lambda x: list(x)})
然後new_df
樣子:
name color_list
-----------------------------------------------
John blue, blue, blue, yellow, red, red
Ann green, orange, orange,red, black
Dan blue, blue, green, yellow
但是,如果我想要創建一個color_seq
(沒有後綴重複的顏色)而不是像下面的color_list
,我該如何修改我的上面的代碼?謝謝!
name color_seq
-----------------------------------------------
John blue, yellow, red
Ann green, orange, red, black
Dan blue, green, yellow
拉姆達X:集(x)的? – Vaishali
不,設置不能保證順序的順序。 – Edamame