我有一個包含多列的文件,但我想刪除第一列中最後8個字符的重複項。下面有一個例子:如何根據特定列中的最後幾個字符刪除重複項?
AJCBK:1:1106:16747:8632_1:N:0:AGCTTCAGTTGTGTGG + Gene 0 Sequence Score 0
AJCBK:1:1109:14645:19987_1:N:0:AGCTTCAGTTGTGTGG + Gene 0 Sequence Score 0
AJCBK:1:1111:14232:8175_1:N:0:AGCTTCAGCTGCCCTT + Gene 0 Sequence Score 0
AJCBK:1:2101:5753:25007_1:N:0:AGCTTCAGCTGCCCTT + Gene 0 Sequence Score 0
AJCBK:1:2101:8971:7239_1:N:0:AGCTTCAGGGTATGGC + Gene 0 Sequence Score 0
AJCBK:1:2102:15618:28054_1:N:0:AGATTCAGTTGTGTGG + Gene 0 Sequence Score 0
AJCBK:1:2106:15389:25632_1:N:0:AGCTTCAGTTGTATCT + Gene 0 Sequence Score 0
AJCBK:1:2113:17273:8419_1:N:0:AGCTTCAGCTGCCCTT + Gene 0 Sequence Score 0
正如你看到的每一行是基於前23個字符的不同,所以我不能用自己的第一列運行uniq的。我想刪除基於最後8個字符的所有重複因此它看起來就像這樣:
AJCBK:1:1106:16747:8632_1:N:0:AGCTTCAGTTGTGTGG + Gene 0 Sequence Score 0
AJCBK:1:1111:14232:8175_1:N:0:AGCTTCAGCTGCCCTT + Gene 0 Sequence Score 0
AJCBK:1:2101:8971:7239_1:N:0:AGCTTCAGGGTATGGC + Gene 0 Sequence Score 0
AJCBK:1:2106:15389:25632_1:N:0:AGCTTCAGTTGTATCT + Gene 0 Sequence Score 0
感謝
這真的很整齊。我不知道存在這樣的事情。謝謝 – Sharad