2013-10-23 25 views
4

在討論如何使用Bio.SeqIO.parse()導入序列數據時,BioPython食譜指出:BioPython:如何氨基酸字母轉換爲

有一個可選的參數字母來指定要使用的字母表。這對於FASTA等文件格式非常有用,否則Bio.SeqIO將默認使用通用字母表。

如何添加此可選參數?我有以下代碼:

from os.path import abspath 
from Bio import SeqIO 

handle = open(f_path, "rU") 
records = list(SeqIO.parse(handle, "fasta")) 
handle.close() 

這會從UniProt數據庫中導入大量FASTA文件。問題在於它在通用的SingleLetterAlphabet類中。如何在SingleLetterAlphabet和ExtendedIUPACProtein之間進行轉換?

最終目標是通過這些序列搜索GxxxG等基序。

回答

7

喜歡分享:

# Import required alphabet 
from Bio.Alphabet import IUPAC 

# Pass imported alphabet as an argument for `SeqIO.parse`: 
records = list(SeqIO.parse(handle, 'fasta', IUPAC.extended_protein))