2013-05-17 67 views
0

我正在爲文本挖掘創建R包,並且我想在包中添加一個函數以獲取KEGG的路徑列表。我能夠從wikipathways獲取路徑,但無法從KEGG獲取路徑。請建議我如何在沒有像NBCI2R和其他任何軟件包的情況下從KEGG獲取路徑,我想自己創建功能,請幫助我。R腳本無需使用任何包從KEGG獲取路徑

謝謝

+1

你可以在你的問題中添加更多細節嗎?在目前的形式下,只有具備特定知識的人才能回答。如果您包含更多信息,我們的通才會也可以幫助您。 –

回答

1

之前,這個答案我強烈建議您閱讀http://www.kegg.jp/kegg/legal.html進行。 KEGG僅供學術使用免費,您需要獲得適當的許可證才能提供服務的API /庫。所以很可能你想要一個非匿名訪問ftp://ftp.genome.jp/需要這樣的許可證。

但是,關於您的實際問題,您可以在http://www.kegg.jp/kegg-bin/download_htext?htext=br08901.keg&format=htext之下找到所有路徑的平面文件。只需下載並解析它:

lines <- readLines(
    "http://www.kegg.jp/kegg-bin/download_htext?htext=br08901.keg&format=htext") 
pathways <- do.call(
    rbind, 
    str_split(grep("^[ABCD]\\s+\\d{5}\\s+.*?$", lines, value=TRUE), "\\s{2,}") 
) 
pathways <- as.data.frame(pathways)[-1] 
colnames(pathways) <- c("ID", "Name") 

head(pathways) 

    ID           Name 
1 01100       Metabolic pathways 
2 01110  Biosynthesis of secondary metabolites 
3 01120 Microbial metabolism in diverse environments 
4 00010     Glycolysis/Gluconeogenesis 
5 00020     Citrate cycle (TCA cycle) 
6 00030     Pentose phosphate pathway 

請注意,這也可能僅用於非商業目的。但是,版權並未聲明非瀏覽器軟件是否可以訪問該網站以供非商業用途。所以你最好不要在沒有聯繫他們的情況下進行太多的嘗試。

+0

thnkew爲你的幫助,這對我來說真的很有用,但是在這裏我需要別的東西,我真的想要通過基因名稱獲取路徑的名稱和鏈接。所以我只提供基因的名稱,它會返回給我一個該基因的路徑列表以及鏈接到這些路徑..... smethng非常類似於NCBI2R R軟件包的GetPathways()。 –

+0

@Jyoti我說過,你很可能想訪問ftp://ftp.genome.jp/。註冊後你會發現他們的一堆文件。可能你對'。* kgml'文件感興趣,這些文件可以使用R的''''''''來輕鬆解析。 – Beasterfield

+0

thnkew so mch sir,itz working ..... !! –

相關問題