-2
我剛開始使用這個新的計劃,如下圖所示,其在一個奇怪的格式輸出:如何從文件中選擇特定的信息? Python的
CRISPR 10 Range: 7784249 - 7784543
POSITION REPEAT SPACER
-------- -------------------------------- ---------------------------------
7784249 GTTTCAATCCACGCCCCCGCATGGGGGGCGAC GTTAAGATTTTCAGCCGAAGCATAAGACTGCTCA [ 32, 34 ]
7784315 GTTTCAATCCACGCCCCCGCATGGGGGGCGAC ATCAATAACAATACCTTGCTTTTCAGTTTCATT [ 32, 33 ]
7784380 GTTTCAATCCACGCCCCCGCATGGGGGGCGAC TATAACTTTCTCCTTCTATTGTTGATGTAACATA [ 32, 34 ]
7784446 GTTTCAATCCACGCCCCCGCATGGGGGGCGAC TTTTCATTTGCATCAAGTTCTTTTTCAAGGTCAA [ 32, 34 ]
7784512 GTTTCAATCCACGCCCCCG>CONTIG-97480
-------- -------------------------------- ---------------------------------
Repeats: 5 Average Length: 32 Average Length: 33
CRISPR 11 Range: 8822044 - 8822520
POSITION REPEAT SPACER
-------- ------------------------------------- ------------------------------------
8822044 GTGTCAATGCCCTATATCGGGCGCACTTCATTTCTAC TTTACCAATCTCGGCTCTTTACTCCCGCTGGGTGCATT [ 37, 38 ]
8822119 GTGTCAATGCCCTATATCGGGCGCACTTCATTTCTAC TTAAAGCAGATACAAAGAAGCCTTGTGAGGAATATT [ 37, 36 ]
8822192 GTGTCAATGCCCTATATCGGGCGCACTTCATTTCTAC TATACTTCAGAAGTGCTGAGTTCCAGAAGCTTTTT [ 37, 35 ]
8822264 GTGTCAATGCCCTATATCGGGCGCACTTCATTTCTAC AAATATATGATTAATAATAAGAATAATCAAATAGTA [ 37, 36 ]
8822337 GTGTCAATGCCCTATATCGGGCGCACTTCATTTCTAC TTTCGTGGTTCCATCTGCTTATGAAACATTATTGATCT [ 37, 38 ]
8822412 GTGTCAATGCCCTATATCGGGCGCACTTCATTTCTAC GGATGAGGCTGGTACATATACGTACCTGGTTCTTC [ 37, 35 ]
8822484 GTGTCAATGCCCTATATCGGGCGCACTTCAT>CONTI
-------- ------------------------------------- ------------------------------------
Repeats: 7 Average Length: 37 Average Length: 36
我不知道我怎麼會去只選擇第三列的字符串,並將其打印到一個新的文件。我也想給每個部分的標題,以及下一個程序,以便例如輸出的「CRISPR 11」的第一行:
>CRISPR_11_8822044_8822520_1
TTTACCAATCTCGGCTCTTTACTCCCGCTGGGTGCATT
這樣的名稱是由達「>」,那麼CRISPR號碼,那麼範圍值和最終號碼就是它的順序,例如它的1,因爲它是這組中的第一個。
我知道如何寫入文件,但不知道如何選擇文件的相關部分。
任何幫助將是偉大的。
使用str.split()和正則表達式和strip()/ lstrip()/ rstrip()。 – DBedrenko 2014-09-24 13:46:14