3
如果我有如下所示的數據框,如何製作長格式數據框(即,每行每個基因一個術語)。如何從列中拆分字符串以創建長格式數據框
我想我將不得不apply
或將split(",")
映射到Term
列,但接下來我該怎麼辦?
import pandas as pd
from StringIO import StringIO
df = pd.read_table(StringIO("""Gene Terms
Mt-nd1 GO:0005739,GO:0005743,GO:0016021,GO:0030425,GO:0043025,GO:0070469,GO:0005623,GO:0005622,GO:0005737
Madd GO:0016021,GO:0045202,GO:0005886
Zmiz1 GO:0005654,GO:0043231
Cdca7 GO:0005622,GO:0005623,GO:0005737,GO:0005634,GO:0005654"""), sep="\s+")
Ps。上面的表格被簡化了,實際的df
將有更多的列。
Psps。如果我不清楚,我想是這樣結束了:
Mt-nd1 GO:0005739
Mt-nd1 GO:0005743
Mt-nd1 GO:0016021
...
Cdca7 GO:0005634
Cdca7 GO:0005654
好知道'擴大= TRUE;(PD> = 0.16.1) – UNagaswamy
@joris在16.2這個答案不工作!獲得'重命名有一個意外的參數列'。這是最後一個不起作用的命令。 –
的修復只是'stacked.reset_index()重命名(列= {0: '期限'})降( 'LEVEL_1',軸線= 1)' - 也就是說,reset_index()''添加到最後一個命令。! –