我有一個文件,我試圖爲某些下游分析做準備,但我需要兩行中的字符數相同。該文件格式如下,第二行(CTTATAATGCCGCTCCCTAAG
)和第四行(bbbeeeeegggggiiiiiiiiigghiiiiiiiiiiiiiiiiiigeccccb
)行需要包含相同數量的字符。匹配兩行中的字符數
@HWI-ST:8:1101:3346:2198#GTCCGC/1
CTTATAATGCCGCTCCCTAAG
+HWI-ST:8:1101:3346:2198#GTCCGC/1
bbbeeeeegggggiiiiiiiiigghiiiiiiiiiiiiiiiiiigeccccb
@HWI-ST:8:1101:10491:2240#GTCCGC/1
GAGTAGGGAGTATACATCAG
+HWI-ST:8:1101:10491:2240#GTCCGC/1
abbceeeeggggfiiiiiigg`gfhfhhifhifdgg^ggdf_`_Y[aa_R
@HWI-ST:8:1101:19449:2134#GTCCGC/1
AAGAAGAGATCTGTGGACCA
到目前爲止,我掏出從每組四個第二行和生成使用包含每一行的長度的記錄文件:
grep -v '[^A-Z]' file.fastq |awk '{ print length($0); }' > newfile
現在我只是看看找到一條指向這條記錄的方法來指導一條sed命令,以便在行尾修剪多少個字符。類似於:
sed -r 's/.{n}$//' file
用某些正則表達式替換n來引用文本文件。我想知道我是否過於複雜,但我需要這些線路才能完全匹配,所以我一直沒有想到另一種方式去實現它。任何幫助將是真棒,謝謝!
它總是第二和第四行嗎?只有那兩個? – 2014-11-01 19:49:18