我有一些我需要分析的fastaq
文件。主要問題是我目前使用的分析工具只接受ACTG
作爲核苷酸,而不接受IUPAC代碼(R
,W
等)中的其餘術語。替換Linux中的FastaQ文件中的特定核苷酸
我做了這個代碼更改的特定核苷酸:
awk '{
split($2,a,"") ;
str="" ;
for (n in a) {nucleotide=a[n]} ;
if (nucleotide~/[ACTG]/) {str=str""nucleotide}
else {
if (nucleotide~/[RWMV]/) {str=str""A}
else {
if (nucleotide~/[YD]/) {str=str""C}
else {
if (nucleotide~/[SKN]/) {str=str""G}
else {str=str""T}
}
}
}
}' | head
這是工作,但它是超慢。你知道更有效的方法嗎?
非常感謝!
'爲(N a)中的{核苷酸= a [n]};'工作不好 –
您的預期產出是?和示例輸入? –
你對末尾的變量'str'沒有任何作用 –