在兩個以上的數據集中發現重疊的基因組座標

我想比較並獲取三個不同數據集中的重疊區域。比較也應該基於CNA。在兩個以上的數據集中發現重疊的基因組座標

data1 
     chr start   end  CNA 
     1 170900001 171500001 loss 
     1 11840001 19420001 loss 
     1 60300001 62700001 gain 
     1 25520001 25820001 gain 

data2 
    chr start  end  CNA 
    1 170940001 171500001 gain 
    1 60300001 62700001 gain 
    1 25520001 25840001 gain 
    1 119860001 123040001 loss 
    1 171500001 171580001 gain 
    1 79240001 84420001 gain 


data 3 
chr start  end  CNA 
1 170950001 171500001 gain 
1 60300001 62700001 loss 
1 25530001 25840001 gain

預期輸出

chr start  end  CNA 
    1 170950001 171500001 gain 
    1 25530001 25840001 gain

我用GenomicRanges用於比較。首先，我試圖根據「收益」和「損失」對基因組區域進行排序。然後，我在每個組之間分別使用findOverlaps，例如。 df1 < - findOverlaps（data1，data2）然後findOverlaps（df1，data3）。我知道有選項牀工具，但是知道在使用GenomicRanges獲得所需輸出時是否有其他方法是很好的？

來源

2015-04-15 beginner

如果您正在尋找GenomicRanges的專家幫助，請考慮在[Bioconductor支持網站]（https://support.bioconductor.org）上詢問您的問題。我認爲答案就是我認爲你正在做的事情 - 爲數據1和數據2找到'findOverlaps（）'，然後得到數據3和結果3。 –

是否[此SO回答]（http://stackoverflow.com/questions/23331475/r-overlap-multiple-granges-with-findoverlaps）解決你的問題？ – eipi10

我做了ask a similar question several days ago。你沒有提到GenomicRanges是否爲你工作。我發現IRange圖書館對我來說工作得更好。也許我的方法可能對你有用

來源

2015-04-15 20:46:01

我試着用GenomicRanges交叉，這對我來說工作得很好。 – beginner

在兩個以上的數據集中發現重疊的基因組座標

回答

相關問題