我寫了這個代碼重複在多個元素的函數
import sys
file = open(sys.argv[1], 'r')
string = ''
for line in file:
if line.startswith(">"):
pass
else:
string = string + line.strip()
#print (list(string))
w = input("Please enter window size:")
test = [string[i:i+w] for i in range (0,len(string),w)]
seq = input("Please enter the number of sequences you wish to read:")
#print (test[0:seq])
它會產生看起來像這 -
['TAAAACACCC', 'TCAATTCAAG', 'GGTTTTTGAG', 'CGAGCTTTTT', 'ACTCAAAGAA', 'TCCAAGATAG', 'CGTTTAAAAA', 'TTTAGGGGTG', 'TTAGGCTCAG', 'CATAGAGTTT']
現在,下一步就是讀取一個列表的列表在列表的每個元素中出現GC
(或可以是CG
)的字母。有通過列表以這樣的方式,輸出文件看起來像一個地遍歷:
Segment 1- The %GC is <the calculated number>
Segment 2- The %GC is <the calculated number>
Segment 3- The %GC is <the calculated number>
由於文件是wayy到大,段的數量i(列表等'TAAGATATA'
的每個單獨的元件)將越來越巨大我不知道如何獲得輸出文件中的段的數字(1,2,3 ...)。另外,因爲我是python(和編程)的新手,我不太擅長使用函數。
向我們展示您迄今爲止編寫的代碼,兄弟 –
我不明白這個問題 - 您能給出一個更明確的例子,在這種情況下什麼是Segments? –
@ TheodrosZelleke-它的一個生物程序。將花費很多時間來解釋,而且是不必要的。我想要的是循環遍歷文件,以便我可以得到段(list = segemnt的每個元素)編號及其相應的GC%(我可以小心) –