我有這個輸入文件:GSUB連續的字符,並保持前行
>seq
GATGGATTCGGANNNNNNNNNNNNNNNGTTGTAGGGNNNNNNNNNNNNNNNNNNNNNNGATAGAGAGNN
>suq
AAHAHAH
這命令:
awk '{gsub(/[N]{5,}/,"\n")}1' f.fa
目前輸出:
>seq
GATGGATTCGGA
GTTGTAGGG
GATAGAGAGNN
>suq
AAHAHAH
如果找到5個或更多個連續的'N'-s,則字符串將被分隔成另一行。問題是,我所要的輸出是這樣的:
>seq
GATGGATTCGGA
>seq_1
GTTGTAGGG
>seq_2
GATAGAGAGNN
>suq
AAHAHAH
每個斷行之前,我想加入「>」線至極對應的字符串加上越來越多的(以是唯一的每個「> '線)。我一直在嘗試不同的方法,但沒有成功。
如果必須重複,suq'計數將從1或3開始(其中'seq'計數停止)? –