2015-04-15 42 views
0

我想比較並獲取三個不同數據集中的重疊區域。比較也應該基於CNA。在兩個以上的數據集中發現重疊的基因組座標

data1 
     chr start   end  CNA 
     1 170900001 171500001 loss 
     1 11840001 19420001 loss 
     1 60300001 62700001 gain 
     1 25520001 25820001 gain 

data2 
    chr start  end  CNA 
    1 170940001 171500001 gain 
    1 60300001 62700001 gain 
    1 25520001 25840001 gain 
    1 119860001 123040001 loss 
    1 171500001 171580001 gain 
    1 79240001 84420001 gain 


data 3 
chr start  end  CNA 
1 170950001 171500001 gain 
1 60300001 62700001 loss 
1 25530001 25840001 gain 

預期輸出

chr start  end  CNA 
    1 170950001 171500001 gain 
    1 25530001 25840001 gain 

我用GenomicRanges用於比較。首先,我試圖根據「收益」和「損失」對基因組區域進行排序。然後,我在每個組之間分別使用findOverlaps,例如。 df1 < - findOverlaps(data1,data2)然後findOverlaps(df1,data3)。我知道有選項牀工具,但是知道在使用GenomicRanges獲得所需輸出時是否有其他方法是很好的?

+0

如果您正在尋找GenomicRanges的專家幫助,請考慮在[Bioconductor支持網站](https://support.bioconductor.org)上詢問您的問題。我認爲答案就是我認爲你正在做的事情 - 爲數據1和數據2找到'findOverlaps()',然後得到數據3和結果3。 –

+0

是否[此SO回答](http://stackoverflow.com/questions/23331475/r-overlap-multiple-granges-with-findoverlaps)解決你的問題? – eipi10

回答

0

我做了ask a similar question several days ago。你沒有提到GenomicRanges是否爲你工作。我發現IRange圖書館對我來說工作得更好。也許我的方法可能對你有用

+0

我試着用GenomicRanges交叉,這對我來說工作得很好。 – beginner