1
我想通過使用Biopython的Entrez.fetch()
函數通過基因ID(GI)編號從NCBI獲取蛋白質序列。如何使用entrez.efetch獲得特定的蛋白質序列?
proteina = Entrez.efetch(db="protein", id= gi, rettype="gb", retmode="xml").
我然後使用讀取數據:
proteinaXML = Entrez.read(proteina).
我可以打印結果,但是我不知道如何讓蛋白質序列孤單。
一旦顯示結果,我可以手動到達蛋白質。或者我檢查XML樹使用:
proteinaXML[0]["GBSeq_feature-table"][2]["GBFeature_quals"][6]['GBQualifier_value'].
但是,根據提交的蛋白質的GI,XML樹可以不同。難以使這一過程穩健自動化。
我的問題:是否有可能只檢索蛋白質序列,而不是整個XML樹? 或者:如果XML文件的結構可能因蛋白質而異,我怎樣才能從XML文件中提取蛋白質序列?
感謝