我有一個多fasta文件,從中需要提取100-200的鹼基,包括其相應的標題。我知道'cut -c 100-200'可以在沒有相應標題的情況下完成。有沒有辦法在Perl或bash中做到這一點?在100-200之間選擇鹼基並將它們與標題一起打印
示例文件:
8YS68_00009_00025 GAGTTTGATCCTGGCTCAGAGCGAACGCTGGCGGCAGGCTTAACACATGCAAGTCGAGCGGGCGTAGCAATACGTCAGCGGCAGACGGGTGAGTAACGCGTGGGAACATACCTTTTGGTTCGGAACAACACAGGGAAACTTGTGCTAATACCGGATAAGCTACGGGAAGATT 8YS68_00009_00027 GAGTTTGATCATGGCTCAGAGCGAACGCTGGCGGCAGGCCTAACACATGCAAGTCGAGCGCCGTAGCAATACGGAGCGGCAGACGGGTGAGTAACGCGTGGGAACGTACCTTTCGGTTCGGAATAACTCAGGGAAACTTGAGCTAATACCGAATACGTCCGTAAGGAGAAAGATTTATCGCCGAAAGATCGGCCCGCGTAAGATTAGCTAGTTGGTGAGGTAAGGCTCACCAAGCGACGATCGTTAGCTTGTC 8YS68_00012_00035 GAGTTTGATCATGGCTCAGAACGAACGTTGGCGGCGTGGATTAG GCATGCAAGTCGAACGAATCCCATCTGGGTAACTGGGTGGGGGAAGTGGCGAAAGGGGCAGTAATGCGTGGGTAACCTACCTGGGGACCGGGATAGCCTCCTAACGGATGGGTAATACCGGATACGACCTTCGGAGGCATCTCCTGAAGG
所需的輸出: SEQ ID ------ ----- ATCGATCGATCG
SEQ ID ------ ----- ATCGATCGATCG
序列編號 ------ ATCGATCGATCG -----
這意味着,我想要精確地提取100-200之間的鹼基每個序列以及它們的標題。如果序列短於100 bp,則忽略它。
你能給出一個簡短的輸入/期望的輸出樣本嗎? – 2013-05-13 12:32:06
這不是[FASTA格式](http://en.wikipedia.org/wiki/FASTA_format)。如果你的數據實際上缺少標識符前面的「>」,那麼下面的方法都不會起作用。 – SES 2013-05-14 13:35:06