我是分層聚類基因表達數據。我的結果數據形狀像樹狀圖。我想保留整個樹在Python中的一些數據結構,並在每個節點(我認爲遞歸)做一些計算。對於每個節點,我都知道那裏的基因和一些額外的信息(GO,p值等)。 對於如何在Python中存儲這種數據,我可以遍歷整個樹的方式有什麼建議嗎? 我首先想到的是字典列表:哪裏可以保留python中的層次聚類數據?
clusters=[{'id': 1, 'cluster': [gen1, gen2,...], 'size': ... , 'ChildIDs': ... , 'ParentID': ... , 'distance': ..., 'score': ...}, {'id': 2, ...}, ... ]
但由於集羣是嵌套的,那麼存儲的基因對每個簇是沒有效率的,我想。
如果任何人有一個更好的主意如何保持這種信息,我將不勝感激:)
你可以看看[這種層次聚類的實現](http://www.nltk.org/_modules/nltk/cluster/gaac.html)。它將信息存儲在[Dendogram類](http://www.nltk.org/_modules/nltk/cluster/util.html)中。如果你看一下'Dendogram'類的'show'方法,你可能會知道它在做什麼。我不知道你正在談論的基因有多少,可能很多,以及這種實現的效率如何......希望它有幫助。 – lrnzcig