2014-01-21 24 views
0

我正在分析一些ChIP-seq數據,並且能夠使用基因組瀏覽器檢索與每個切片染色體區域相關的序列元素。分析和搜索特定的主題後,我結束了類似以下的輸出:如何檢索R bioconductor中的UCSC refseq基因

head (chr.reg) 
[,1]      
[1,] "chr1:181030981-181032670" 
[2,] "chr3:55709147-55709901" 
[3,] "chr3:119813410-119814934" 
[4,] "chr4:185201060-185205420" 
[5,] "chr4:39610956-39611545" 
[6,] "chr6:126253238-126253636" 

每個染色體區域中包含的轉錄因子的主題,我很感興趣,

我的問題是,如下: 有沒有一種方法可以檢索與這些區域相關的refseq基因名稱?我試圖尋找bioconductor包,但我找不到任何或可能我只是忽略了一個!任何人都可以知道一個特定的軟件包,可以幫助我解決這個問題嗎?

感謝提前:)

回答

1

我相信答案就在ChIPpeakAnno包。 下面是一個示例代碼:

require(ChIPpeakAnno) 
    peak <- RangedData(space="chr4", IRanges(39610956, 39611545))#chromosome start, end 
    data (TSS.human.GRCh37) 
    ap <- annotatePeakInBatch(peak,Annotation=TSS.human.GRCh37 , PeakLocForDistance="end") 

輸出看起來像這樣:

require (org.Hs.eg.db) 
gene.anno <- select(org.Hs.eg.db, keys= ap$feature,keytype = "ENSEMBL", columns=c("ENSEMBL",   
"SYMBOL")) 

檢索到的基因:

> ap 

RangedData with 1 row and 9 value columns across 1 space 
       space    ranges |  peak  strand 
       <factor>   <IRanges> | <character> <character> 
1 ENSG00000163683  4 [39610956, 39611545] |   1   - 
         feature start_position end_position insideFeature 
        <character>  <numeric> <numeric> <character> 
1 ENSG00000163683 ENSG00000163683  39552535  39640513  inside 
       distancetoFeature shortestDistance fromOverlappingOrNearest 
         <numeric>  <numeric>    <character> 
1 ENSG00000163683    28968   28968    NearestStart 

要ENSEMBL IDS檢索RefSeq中或基因符號

> gene.anno 
     ENSEMBL  ENTREZID SYMBOL  
1 ENSG00000163683 201895 SMIM14