2012-10-23 48 views
1

我是R/BioC的新手。我正在嘗試做基於GO的基因聚類。輸入需要是每行中的基因名稱和GO術語。 例子:如何獲得每個探針的基因本體(GO)術語

AP4B1 GO:0005215 GO:0005488 GO:0005515 GO:0005625 GO:0005802 GO:0005905 
BCAS2 GO:0005515 GO:0005634 GO:0005681 GO:0008380 GO:0031202 

我試着使用Bioconductor的註釋:

library("rat2302.db") 
library(annotate) 
testid<-c("1367462_at","1380262_at", "1392516_a_at", "1396521_at") 
goid1 <- rat2302GO[testid] 

但我得到的只是在單獨一行各走各期限:

toTable(goid1) 

probe_id  go_id Evidence Ontology 
1 1367462_at GO:0008152  IEA  BP 
2 1367462_at GO:0008152  ISO  BP 
3 1367462_at GO:0006508  IMP  BP 
4 1367462_at GO:0005886  IEA  CC 
5 1367462_at GO:0005737  IEA  CC 
6 1380262_at GO:0005575  ND  CC 
7 1380262_at GO:0005634  IEA  CC 
8 1380262_at GO:0005737  IEA  CC 
9 1367462_at GO:0005509  IEA  MF 
10 1367462_at GO:0005509  TAS  MF 
11 1367462_at GO:0004198  IDA  MF 
12 1367462_at GO:0004198  IEA  MF 
13 1367462_at GO:0004198  ISO  MF 
14 1367462_at GO:0046982  IPI  MF 
15 1380262_at GO:0000166  IEA  MF 

也許還有一個更簡單的方式來獲得所有GO術語每個基因。不幸的是,我找不到它。

任何幫助,非常感謝。

感謝 [R

+1

我建議您請在[Bioconductor的(http://bioconductor.org/help/mailing-list/)郵件列表。 –

+0

或http://biostars.org/ –

回答

0

好了,從你輸入的例子,你想究竟如何格式化您的輸入,目前尚不清楚。您提交的是data.frame?或者,它是第一個元素是基因名稱的兩個字符向量?或者你想要一個格式爲你的例子的.txt文件?

我想,最容易做的事情是由probe_id簡單split,如下

tab <- toTable(goid1) 
split(tab$go_id, tab$probe_id) 

這給輸出

$`1367462_at` 
[1] "GO:0006508" "GO:0005886" "GO:0005737" "GO:0070062" "GO:0005509" "GO:0004198" "GO:0046982" 
[8] "GO:0005509" "GO:0004198" 

$`1380262_at` 
[1] "GO:0005575" "GO:0005634" "GO:0005737" "GO:0015459" "GO:0004674" "GO:0005524" "GO:0015459" 
[8] "GO:0015459" 

$`1396521_at` 
[1] "GO:0008289" 

在任何情況下。這是每個基因/探針組的GO-術語載體列表。把它變成你想要的東西應該相當容易。

0

NCBI提供gene2go命名的文件,這可能是一個你想

相關問題