有製表符分隔的文件,如下圖所示:我如何刪除重複的行,並創建指數AWK
CNV_chr1_12623251_12632176 8925 3 RR123 XX
CNV_chr1_13398757_13402091 3334 4 RR123 YY
CNV_chr1_13398757_13402091 3334 4 RR224 YY
CNV_chr1_14001365_14004064 2699 1 RR123 YX
CNV_chr1_14001365_14004064 2699 1 RR224 YX
列了$ 1,$ 2歲的相同。在這種情況下,我需要通過索引第4列中的值來刪除重複行。並添加額外的5美元,並在$ 4中以英文逗號分隔。示例輸出如下所示:
CNV_chr1_12623251_12632176 8925 3 RR123 1 XX
CNV_chr1_13398757_13402091 3334 4 RR123,RR124 2 YY
CNV_chr1_14001365_14004064 2699 1 RR123,RR224 2 YX
任何有效的操作都會有幫助。
相同序列的順序是隨機的嗎?你說第一和第二列保持相同。當第三欄不同時會發生什麼。哪一個應該使用? –
搜索鍵是$ 1和$ 2。這與其他專欄的內容無關。下面的解決方案工作,但需要稍微修復 – chas