我有一個名爲fasta的瓦片類型,其中包含一個標題「> 12122」,後跟一個字符串。我想刪除文件中的重複字符串,並只保留一個重複的字符串(相同的)和相應的標題。
在AGGTTCCGGATAAGTAAGAGCC下面的例子是在複製過濾器唯一行
:
>17-46151
AGGTTCCGGATAAGTAAGAGCC
>1-242
AGGTTCCGGATAAGTAAGAGCC
>18-41148
TCTTAACCCGGACCAGAAACTA
>43-16054
GTCCCACTCCGTAGATCTGTTC
>32-24116
TAGCATATCGAGCCTGAGAACA
>42-16312
TGATACGGATGTTATACGCAGC
出:
>1-242
AGGTTCCGGATAAGTAAGAGCC
>18-41148
TCTTAACCCGGACCAGAAACTA
>43-16054
GTCCCACTCCGTAGATCTGTTC
>32-24116
TAGCATATCGAGCCTGAGAACA
>42-16312
TGATACGGATGTTATACGCAGC
你爲什麼一直'18-41148'?它似乎不是重複的 –
對不起,我想保持獨特的字符串。如果其中一個重複,我想保留其中一個重複部分 – user2300940
您可以嘗試在例子中使用Perl哈希:'perl -nE'chomp; chomp($ seq = <>); $ seqs {$ seq} = $ _; END {for(keys%seqs){say;說$ seqs {$ _}}}'in.txt' –