awk中的匹配行分割字符串和平均值

我試圖輸出匹配的$4值與$5中的文本之前的-和匹配$7的平均值的計數。輸出進行排序，以便將匹配的$5字符串分組在一起。 awk接近，但輸出是空的，可能有更好的方法，但希望是一開始:)。謝謝：）。awk中的匹配行分割字符串和平均值

輸入

chr1 955543 955763 chr1:955543-955763 AGRN-6|gc=75 1 25 
chr1 955543 955763 chr1:955543-955763 AGRN-6|gc=75 2 25 
chr1 1167809 1168658 chr1:1167809-1168658 B3GALT6-42|gc=75.8 1 2 
chr1 1167809 1168658 chr1:1167809-1168658 B3GALT6-42|gc=75.8 2 2 
chr1 1167809 1168658 chr1:1167809-1168658 B3GALT6-42|gc=75.8 3 2 
chr1 976035 976270 chr1:976035-976270 AGRN-9|gc=74.5 228 28 
chr1 976035 976270 chr1:976035-976270 AGRN-9|gc=74.5 229 28 
chr1 976035 976270 chr1:976035-976270 AGRN-9|gc=74.5 230 27

期望的輸出（匹配平均的$7的$5$4分裂由$5排序）

chr1:955543-955763 2 AGRN 25 
chr1:976035-976270 3 AGRN 27 
chr1:1167809-1168658 3 B3GALT6 2

AWK

awk ' 
function file_print() { 
for(k in a) { 
split(k, ks,/|(-[0-9]*[|])/) 
printf("%s %d %s %d\n", ks[1], c[k], ks[2], a[k]/c[k]) > ofn 
delete a[k] 
delete c[k] 
} 
close(ofn) 
} 
NR > 1 && FNR == 1 { 
file_print() 
} 
FNR == 1 { 
ofn = substr(FILENAME, 1, length(FILENAME)) 
} 
{ a[k = $4 " " $5] += $7 
c[k]++ 
} 
END { file_print() 
}' input

來源

2016-04-04 Chris

我認爲你過於複雜的任務。

如果我理解你的需求，這將產生輸出（以稍微不同的順序排列）：

awk '{seen[$4]++; sub(/-.*/, "", $5); field[$4]=$5; sum[$4]+=$7} 
     END{for (e in seen) print e, seen[e], field[e], int(sum[e]/seen[e])}' file 

chr1:1167809-1168658 3 B3GALT6 2 
chr1:976035-976270 3 AGRN 27 
chr1:955543-955763 2 AGRN 25

然後，您可以通過sort通過$5像這樣運行它給組和排序：

awk '{seen[$4]++; sub(/-.*/, "", $5); field[$4]=$5; sum[$4]+=$7} 
     END{for (e in seen) print e, seen[e], field[e], int(sum[e]/seen[e])}' file | sort -k 2 

chr1:955543-955763 2 AGRN 25 
chr1:976035-976270 3 AGRN 27 
chr1:1167809-1168658 3 B3GALT6 2

來源

2016-04-04 18:36:37 dawg

非常感謝你們......我絕對是過於複雜的東西:)。 – Chris

awk來救援！

$ awk '{split($5,f,"-"); k=$4 OFS f[1]; s[k]+=$NF; c[k]++} 
    END{for(k in s) print k, c[k], int(s[k]/c[k])}' file 

chr1:955543-955763 AGRN 2 25 
chr1:976035-976270 AGRN 3 27 
chr1:1167809-1168658 B3GALT6 3 2

請注意訂單略有不同，因爲$ 5前綴也是關鍵的一部分。同樣的平均值向下舍入，如你的例子。如果您需要重新排列，只需管道到... | awk '{t=$2;$2=$3;$3=t}1'即可交換兩個字段。

來源

2016-04-04 18:30:10 karakfa

awk中的匹配行分割字符串和平均值

回答

相關問題