2011-06-13 50 views
2

我需要解析初步GenBank平面文件。該序列尚未發佈,因此我無法通過加入來查找並下載FASTA文件。我是生物信息學的新手,所以有人可以告訴我在哪裏可以找到BioPerl或BioPython腳本來自己做這件事?謝謝!將GenBank平臺文件轉換爲FASTA

+3

谷歌搜索「biopython解析:所有基因的基因/列表,然後序列fasta「將這個http://www.biopython.org/wiki/SeqIO作爲第一場比賽。第二場比賽是解析fasta的教程。這是你想要的? – 2011-06-13 22:01:56

+0

當然,使用「bioperl解析fasta」的搜索結果也會給出正確的結果,如常見問題解答:「我想解析FASTA或NCBI -m7(XML)格式,我該如何做?在http://www.bioperl.org/wiki/FAQ#I_want_to_parse_FASTA_or_NCBI_-m7_.28XML.29_format.2C_how_do_I_do_this.3F – mirod 2011-06-14 07:16:38

回答

1

我在這裏爲您提供Biopython解決方案。我會首先假設你的genbank文件涉及到一個基因組序列,然後我會提供一個不同的解決方案,假設它是一個基因序列。事實上,知道你正在處理哪些事情會有幫助。

基因組序列解析:在您的自定義GenBank中簡單文件

解析來自文件:

from Bio import SeqIO 
record = SeqIO.read("yourGenbankFileDirectory/yourGenbankFile.gb","genbank") 

如果你只是想那麼原始序列:

rawSequence = record.seq.tostring() 

現在也許你需要爲此序列命名,在製作.fasta之前爲序列提供「>標題」。

nameSequence = record.features[0].qualifiers 

這應返回與整個序列的各種同義詞詞典由基因庫文件的作者作爲註釋

基因序列解析:讓我們看看與GenBank中.gb文件來幹什麼名

解析從文件中通過自定義GenBank中簡單文件:

from Bio import SeqIO 
record = SeqIO.read("yourGenbankFileDirectory/yourGenbankFile.gb","genbank") 

要獲得的原料清單

rawSequenceList = [gene.extract(record.seq.tostring()) for gene in record.features] 

以獲得每個基因序列名稱的列表(更準確地說是每個基因同義詞的詞典)

nameSequenceList = [gene.qualifiers for gene in record.features]