的亞型我有以下格式的大文件:一個基因的LINUX awk命令合併基因
chr1 11873 12227 DDX11L1 . +
chr1 12612 12721 DDX11L1 . +
chr1 13220 14409 DDX11L1 . +
chr1 14361 14829 WASH7P . -
chr1 14969 15038 WASH7P . -
chr1 15795 15947 WASH7P . -
chr1 16606 16765 WASH7P . -
chr1 16857 17055 WASH7P . -
chr1 17232 17368 WASH7P . -
chr1 17368 17436 MIR6859-2 . -
chr1 17368 17436 MIR6859-1 . -
chr1 17605 17742 WASH7P . -
chr1 17914 18061 WASH7P . -
chr1 18267 18366 WASH7P . -
chr1 24737 24891 WASH7P . -
chr1 29320 29370 WASH7P . -
chr1 34610 35174 FAM138A . -
chr1 34610 35174 FAM138F . -
chr1 35276 35481 FAM138A . -
chr1 35276 35481 FAM138F . -
chr1 35720 36081 FAM138A . -
chr1 35720 36081 FAM138F . -
chr1 69090 69093 OR4F5 . +
chr1 69090 70005 OR4F5 . +
chr1 69090 70008 OR4F5 . +
chr1 70005 70008 OR4F5 . +
chr1 134772 139696 LOC729737 . -
chr1 139789 139847 LOC729737 . -
我想合併所有亞型的座標(coloumn 4)。 如果第四列中的值在列中相同,我希望第一個匹配行的第2列中的值和最後一個匹配行中第3列的值相同,因此輸出將變爲。
chr1 11873 14409 DDX11L1 . +
chr1 14361 29370 WASH7P . -
chr1 17368 17436 MIR6859-2 . -
chr1 17368 17436 MIR6859-1 . -
chr1 34610 36081 FAM138A . -
chr1 34610 36081 FAM138F . -
chr1 69090 70008 OR4F5 . +
chr1 134772 139847 LOC729737 . -
在此先感謝您,期待您的積極響應。
你爲什麼要標記awk/sed?在問題中我看不到awk或sed代碼。 - 其實我根本沒有看到任何問題。 – melpomene
我認爲有可能使用awk命令來獲得所需的輸出 – learner
您應該至少已經學會了如何格式化第一個問題的樣本輸入/輸出。 –