我有一個FASTA文件與DNA序列和序列的名稱,我需要做一個矩陣的重疊分數。我在Biopython中找到了模塊pairwise2
,這看起來很好。除了我的序列已經對齊,並且當我使用pairwise2
時,它再次嘗試對齊需要很長時間的序列,並且顯然對於每個對齊獲得相同的重疊分數。所以我的問題是如何在沒有嘗試重新排列序列的情況下獲得重疊分數? 這是我到目前爲止有:重疊分數矩陣biopython
from Bio.Alphabet import IUPAC
from Bio import SeqIO
from Bio import pairwise2
fasta_file = SeqIO.parse('unambiguous.fasta', 'fasta', alphabet=IUPAC.ambiguous_dna)
all_seq = []
for seq_record in fasta_file:
all_seq += [str(seq_record.seq)]
compare = pairwise2.align.globalms(all_seq[0], all_seq[1], 2, -1, -1, 0)
print(compare)
我從FASTA文件只使用第一和第二序列這裏試訓。正如你在腳本中看到的,匹配應該獎勵2分,不匹配和差距-1。當兩個序列在同一個位置上有差距時,0應該是獎勵。我知道把0放在第4位不會給我想要的結果,但我還沒有解決這個問題的方法。此時對齊問題似乎更大。 因此,任何人都有一些與pairwise2或其他python/biopython模塊的經驗,可以讓我的重疊分數?
你的意思是'unambiguous.fasta'包含對齊的序列嗎? –
請[編輯]你的問題,包括示例你的問題的輸入。 – MattDMo