我有一個文件表徵的基因組區域,看起來像這樣:提取重疊區域
chrom chromStart chromEnd PGB
chr1 12874 28371 2
chr1 15765 21765 1
chr1 15795 28371 2
chr1 18759 24759 1
chr1 28370 34961 1
chr3 233278 240325 1
chr3 239279 440831 2
chr3 356365 362365 1
基本上PGB,其特徵爲它的染色體數目(CHROM)的基因組區域的類別,啓動(chromStart)和結束( chromEnd)座標。
我希望以摺疊重疊區域,使得重疊PGB的區域= 1和2是在一個新的類別,PGB = 3輸出端:
chrom chromStart chromEnd PGB
chr1 12874 15764 2
chr1 15765 24759 3
chr1 24760 28369 2
chr1 28370 28371 3
chr1 28372 34961 1
chr3 233278 239278 1
chr3 239279 240325 3
chr3 240326 356364 2
chr3 356365 440831 3
基本上我希望獲得一個輸出文件,其報告獨特的地區。有兩個標準。
首先,如果PGB(第4列)在行之間相同,則合併範圍。例如。
chrom chromStart chromEnd PGB
chr1 1 10 1
chr1 5 15 1
輸出
chrom chromStart chromEnd PGB
chr1 1 15 1
其次,如果PGB是行之間不同,CHR(列1)是相同的,並且範圍重疊(COL2和3)中,報告重疊範圍爲PGB = 3作爲以及各個類別獨有的範圍。
例如。
chrom chromStart chromEnd PGB
chr1 30 100 1
chr1 50 150 2
輸出
chrom chromStart chromEnd PGB
chr1 30 49 1
chr1 50 100 3
chr1 101 150 2
我希望能說明問題更好。
到目前爲止你有嘗試過什麼嗎? – chilemagic
我對perl/unix非常陌生,所以我在excel上手動執行。不幸的是,我有60000多行,所以我希望能有更快的選擇。 – user3222627
@ user3222627你需要多解釋一下你如何得到你想要的結果。 –