我有一個包含數千個fasta格式DNA序列的文件,我需要 計算多少次100個單獨的短序列(motif)發生在較大的文件中。到目前爲止,我一直以motif爲主題,但我無法弄清楚如何得到我的輸出總結,以便我沒有成千上萬的值列。同時輸入所有圖案並返回表格也是非常好的。我對編碼非常陌生,非常感謝任何反饋! 我有;如何總結迭代計數,也從單個查詢移動到許多並創建表格輸出
from Bio import SeqIO
for i in SeqIO.parse(f,'fasta'):
print i.seq.count('motif')
我想我並不真的需要Biopython這個作爲主題將在 序列名稱沒有命中。那麼我可以做一個只讀行(...)的迭代器嗎?
我的輸入是類似的;
>fasta1
AACTGGGGTCCGTCGATAATATAGGATAG...
>fasta2
GCGCGTGATAGATATGATTAGCGGCGCAA...
等
在像這樣csv文件的基序;
ACCGAATTTAAA,AAATTATAAAA,GCCCTAAAAAG