我剛剛開始嘗試學習一些Python的第一步。目前正在通過旨在教授生物信息學python技能的Rosalind在線課程。 (非常好,請參閱:rosalind.info)將公式應用到數據行,它跨越多行
我正在努力解決一個特定的問題。我在FASTA格式的文件,其具有形式,因此:
>Sequence_Header_1
ACGTACGTACGTACGTACGT
ACGTACGTACGTACGTACGT
>Sequence_Header_2
ACGTACGTACGTACGTACGT
ACGTACGTACGTACGTACGT
我需要計算G和C的百分比(不包括報頭)的文件的各條目,並返回該數目,例如:
>Sequence_Header_1
48.75%
>Sequence_header_2
52.43%
到目前爲止我的代碼是:
file = open("input.txt" , "r")
for line in file:
if line.startswith(">"):
print(line.rstrip())
else:
print ('%3.2f' % (line.count('G')+line.count('C')/len(line)*100))
file.close()
這是做幾乎什麼,我需要做的。我只是遇到了序列數據跨越多行的麻煩。目前,我得到的文件中的每一行的%GC含量,而不是爲每個條目返回一個單一的數字,例如:
>Sequence_Header_1
48.75%
52.65%
>Sequence_header_2
52.43%
50.25%
我如何運用我的公式來橫跨多行的數據?
由於提前,
嗨喬恩特,我的錯誤,標題確實應該以「>」開頭。感謝您的輸入。那裏有很多東西對我來說是全新的。試着讓我的simple-noob版本開始工作! – mu0u506a