我有36-nt這樣讀取:atcttgttcaatggccgatcXXXXgtcgacaatcaa
在fastq文件 中,XXXX是不同的條形碼。我想在準確的位置(21到24)搜索文件中的條形碼,然後打印序列中最多3個不匹配的序列,而不是條形碼。找到序列不匹配的DNA條形碼
例如: 我有條碼:aacg
搜索該位置21之間的條碼,以24 FASTQ文件,允許3個錯配像的順序:
atcttgttcaatggccgatcaacggtcgacaatcaC# it has 1 mismatch
ttcttgttcaatggccgatcaacggtcgacaatcaC# it has 2 mismatch
tccttgttcaatggccgatcaacggtcgacaatcaC# it has 3 mismatch
我是想先找到獨特的線條使用awk並尋找不匹配,但對於我來說,查找並找到它們非常繁瑣。
awk 'NR%4==2' 1.fq |sort|uniq -c|awk '{print $1"\t"$2}' > out1.txt
有沒有什麼快捷方式可以找到?
謝謝。
我很困惑。條形碼與核苷酸序列有什麼關係? – Kevin
最初我正在尋找特定位置的條形碼,而且我的計數很低,並且在序列中有1個不匹配,我得到了高count.so,如果我在序列中給出不匹配,我將獲得更多序列(並且我想嘗試upto 3) – abh
所以你正在掃描[條碼](http://en.wikipedia.org/wiki/Barcode)?比如,超市收銀員用來識別物品價格的黑色和白色條紋圖案?因爲我還不知道如何從條形碼中獲得DNA。 – Kevin