2015-03-31 36 views
1

我有一個完整的Uniprot ID文件。 現在我正在尋找一種方法來下載每個ID的整個XML條目。Biopython:通過蛋白質登錄獲取XML文件

+0

你有什麼試過?請參考http://stackoverflow.com/help/how-to-ask它會讓我們更好地幫助你 – 2015-03-31 09:26:07

回答

0

首先,您爲每個UniProt ID構建一個URL以檢索蛋白質的XML定義。

uniprot_id = 'P12345' 
url = 'http://www.uniprot.org/uniprot/'+uniprot_id+'.xml' 

可以構造網址通過改變字符串即「txt文件,.fasta,.RDF」的端部,以檢索不同的數據格式。這link給出了有關uniprot訪問模式的更多具體細節。

接下來你打開url並使用BioPython解析輸出。或者,您可以將XML字符串保存到磁盤。

import urllib2 
from Bio import SeqIO 

uniprot_id = 'P12345' 
url = 'http://www.uniprot.org/uniprot/'+uniprot_id+'.xml' 
s = urllib2.urlopen(url) 
contents = s.read() 

record = SeqIO.read(contents, 'uniprot-xml') 
+0

非常感謝。我發現我實際上可以在Uniprot上傳文本文件並以xml格式下載所有結果。有時答案很容易就馬上想到。 – Rima 2015-04-10 10:19:03

相關問題