該代碼可用於從FASTA文件提取和分離序列如何分割的fasta文件
outfile=open('outf','w')
for line in open('input'):
if line[0]==">":
outfile.write('\n')
else:
outfile.write(line.strip())
outfile.close()
all_codons=[]
for line in open('outf', 'r'):
seq=line.strip()
codons = [seq[i:i+3] for i in xrange(0, len(seq), 3) if len(seq[i:i+3])==3]
all_codons.append(codons)
然後,從我想利用三個序列其長度的splited序列是9(9個鹼基)例如:
CGTAACAAG
AATCCGGAG
CCGCCTCGG
我把第一個序列分成3個鹼基的3個子序列,所以從一個序列我得到3個子序列,我對這兩個其他序列做同樣的事情。
像這樣:
CGT AAC AAG
AAT CCG GAG
CCG CCT CGG
例如:
identical_segment('CGT')
我想這個功能適用於日三個序列的每個子序列,然後應用在所有的fasta文件同樣的事情。因此,目的是獲得矩陣,例如我採用第一個子序列'CGT'並應用函數identical_segment(),它返回28,其餘8個子序列的結果相同。所以我得到一個矩陣(3,3):
28 2 3
4 23 35
23 4 27
我該怎麼辦?
你不應該發表一個新的問題來澄清一個較舊的問題!只需點擊舊問題上的「編輯」按鈕並在其中添加信息即可。 – seth