我正在爲文本挖掘創建R包,並且我想在包中添加一個函數以獲取KEGG的路徑列表。我能夠從wikipathways獲取路徑,但無法從KEGG獲取路徑。請建議我如何在沒有像NBCI2R和其他任何軟件包的情況下從KEGG獲取路徑,我想自己創建功能,請幫助我。R腳本無需使用任何包從KEGG獲取路徑
謝謝
我正在爲文本挖掘創建R包,並且我想在包中添加一個函數以獲取KEGG的路徑列表。我能夠從wikipathways獲取路徑,但無法從KEGG獲取路徑。請建議我如何在沒有像NBCI2R和其他任何軟件包的情況下從KEGG獲取路徑,我想自己創建功能,請幫助我。R腳本無需使用任何包從KEGG獲取路徑
謝謝
之前,這個答案我強烈建議您閱讀http://www.kegg.jp/kegg/legal.html進行。 KEGG僅供學術使用免費,您需要獲得適當的許可證才能提供服務的API /庫。所以很可能你想要一個非匿名訪問ftp://ftp.genome.jp/需要這樣的許可證。
但是,關於您的實際問題,您可以在http://www.kegg.jp/kegg-bin/download_htext?htext=br08901.keg&format=htext之下找到所有路徑的平面文件。只需下載並解析它:
lines <- readLines(
"http://www.kegg.jp/kegg-bin/download_htext?htext=br08901.keg&format=htext")
pathways <- do.call(
rbind,
str_split(grep("^[ABCD]\\s+\\d{5}\\s+.*?$", lines, value=TRUE), "\\s{2,}")
)
pathways <- as.data.frame(pathways)[-1]
colnames(pathways) <- c("ID", "Name")
head(pathways)
ID Name
1 01100 Metabolic pathways
2 01110 Biosynthesis of secondary metabolites
3 01120 Microbial metabolism in diverse environments
4 00010 Glycolysis/Gluconeogenesis
5 00020 Citrate cycle (TCA cycle)
6 00030 Pentose phosphate pathway
請注意,這也可能僅用於非商業目的。但是,版權並未聲明非瀏覽器軟件是否可以訪問該網站以供非商業用途。所以你最好不要在沒有聯繫他們的情況下進行太多的嘗試。
thnkew爲你的幫助,這對我來說真的很有用,但是在這裏我需要別的東西,我真的想要通過基因名稱獲取路徑的名稱和鏈接。所以我只提供基因的名稱,它會返回給我一個該基因的路徑列表以及鏈接到這些路徑..... smethng非常類似於NCBI2R R軟件包的GetPathways()。 –
@Jyoti我說過,你很可能想訪問ftp://ftp.genome.jp/。註冊後你會發現他們的一堆文件。可能你對'。* kgml'文件感興趣,這些文件可以使用R的''''''''來輕鬆解析。 – Beasterfield
thnkew so mch sir,itz working ..... !! –
你可以在你的問題中添加更多細節嗎?在目前的形式下,只有具備特定知識的人才能回答。如果您包含更多信息,我們的通才會也可以幫助您。 –