2017-03-04 144 views
0

我在分割pd.DataFrame(或pd.Series)時出現了一個值切換問題。將數據分割爲pandas python

例如,我有一個像

list('AAAAABBBBBAAABBBCCCCBBBBAAAAA') 

,你可以看到一個數據,A和B和C都被佈置成區塊。

什麼是管理他們在細分市場最pythonic方式?

相信代碼將被產生就是喜歡一個陣列狀數據:其是用於所述段中的名稱的列表

list('00000111112223334445555666677777') 

回答

1

大多數Python的方式將使用itertools.groupby()

但輸出格式需要一些工作,因爲它只能容納10個數字(0-9)什麼是字符「11」之間的區別和「1」時,它的反覆數次像那樣。

+0

非常感謝!我的輸出格式只是爲了避免糟糕的[0,0,0,0,1,...],這本來可以是很長的。 – Allosteric