2017-07-31 42 views
0

我嘗試過BioPython SeqIO和其他解析器,但找不到任何好的工具來解析DAT文件。如何解析Uniprot Dat文件以在python中檢索GO?

https://omics.pnl.gov/software/uniprot-dat-file-parser 

我已經試過這一個,但他們沒有提供任何基因註釋

http://biopython.org/wiki/SeqIO 

他們談論的大多是採取FASTA的投入,而不是DAT文件。

from Bio import SeqIO 
    for record in SeqIO.parse("Fasta/f002", "fasta"): 
...  print("%s %i" % (record.id, len(record))) 

回答

1

那些看起來像什麼Biopython調用"swiss"格式,在Swissprot它被調用的UniProt之前使用純文本格式。嘗試:

from Bio import SeqIO 
    for record in SeqIO.parse("example.dat", "swiss"): 
     print("%s %i" % (record.id, len(record))) 

又見於http://biopython.org/wiki/SeqIO

0

親愛的穆罕默德Zeeshan的格式表,

可以使用Python庫pyuniprot的查詢功能,以獲得序列(或其他許多東西)

安裝(使用pip或git克隆)和更新。找出哪種分類標識符適合您的生物體。這裏的例子(人類,小鼠,大鼠)。不要對所有生物進行全面更新(需要很長時間)。

pyuniprot.update(taxids=[9606, 10090, 10116]) 

使用下面的Python代碼爲您的問題:

假設1433E_HUMANA4_HUMAN感興趣的標識符:

Python代碼:

import pyuniprot 
query = pyuniprot.query() 
entries = query.entry(name=('1433E_HUMAN', 'A4_HUMAN')) 
seqs = [x.sequence.sequence for x in entries]